CN102207945A

CN102207945A - 基于知识网络的文本标引系统及其方法

Info

Publication number: CN102207945A
Application number: CN2010101685262A
Authority: CN
Inventors: 张伟伟; 张旭成; 孙威; 宋传宝; 陶鹏
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2010-05-11
Filing date: 2010-05-11
Publication date: 2011-10-05
Anticipated expiration: 2030-05-11
Also published as: CN102207945B

Abstract

本发明公开了一种基于知识网络的文本标引系统及其方法。该文本标引系统包括单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元。对于输入文本标引系统的文本，首先进行分词，获取文本中的文本特征词；根据文本特征词所对应的知识树的节点位置，推演出该文本对应的类别词TAG；在TAG的基础上，通过判别式模型对TAG的合法性进行判定，由此提炼出可靠的TAG词集，再通过可靠的TAG词集重新定位文本特征词词集，形成可靠的文本特征词词集。本发明使内容词提取、类别标注和短语的提取一体化，因此提取的效果能够互相促进；各个词的语义通过知识网络的节点得以表现，从而减少歧义的发生。

Description

基于知识网络的文本标引系统及其方法

技术领域

本发明涉及一种实现文本标引的系统及其方法，尤其涉及一种在文本信息处理的过程中，基于知识网络(Knowledge Network)实现的文本标引系统及文本标引方法，属于文本信息处理技术领域。

背景技术

文本是最基本、最常用的信息载体。随着互联网的日益普及，文本信息迅速膨胀。例如，在Internet上每天有数十万的网页更新，数百万新的网页加入，使得Internet上的信息丰富而又复杂。如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息是当前文本信息处理领域面临的一大挑战。

在文本信息处理工作中，文本的内容词提取、类别标注和短语(phrase)的提取(统称为文本标引)一直是有关科研人员进行研究的一个主要问题。如何系统地整合这些功能在一个文本标引框架下，并能持续互相改进，将是一个非常有意义的工作。

在申请号为200710000966.5的中国发明专利申请中，提出了一种相关信息的发布方法和装置。该方法包括以下步骤：收集互联网中符合预置条件的网络文本；计算得到网络文本相应的文本特征参数；比对特征参数，依次完成网络文本的归类；发布相应的相关信息。该方法能够在用户不关心当前浏览文本关键词的情况下，发布最准确的相关信息，以及能够准确的将相关信息发布至终端用户的虚拟空间，以满足互联网相关信息发布的发展需要。

另外，在申请号为200810079685.8的中国发明专利申请中，提出了一种基于数据挖掘技术的文本多精度表示方法。它利用数据挖掘技术从海量文本中发现重要的文本特征信息，这些特征信息是多层次、多精度的。利用这些特征形成文本的精确表示，计算机基于这种精确的文本表示进行文本检索、聚类和分类等处理，能产生更佳的效果。

互联网搜索引擎是文本信息处理技术的具体应用之一。但是，现有的互联网搜索引擎普遍采用基于关键词的索引机制，很容易将篮球的火箭队与火箭发动机混为一谈，严重影响用户检索时获取所需要的知识的效率。目前，人们利用知识网络来研究人及企业间的知识传播、合作及创新行为，表示各类知识资源，分析个人及组织知识体系的结构、组成等，但没有在文本标引技术中使用知识网络的成熟技术方案。虽然在专利号为ZL 200510050198.5的中国发明专利中，浙江大学的研究人员提出了一种基于链接分析的个性化搜索引擎方法，是通过建立知识网络模型描述用户兴趣，建立多态链接网络记录网络节点之间链接的不同类别，进而在此基础上展开链接分析得到搜索结果。但是，该个性化搜索引擎方法建立在多态链接网络基础上，适用面有限，不能在文本标引技术中得到有效使用。

发明内容

本发明所要解决的首要技术问题在于提供一种基于知识网络的文本标引系统。该系统可以在一个统一平台下，提供若干种不同的维度索引，有效解决现有文本标引技术准确率低的问题。

本发明所要解决的另外一个技术问题在于提供上述文本标引系统进行文本标引的具体方法。

为实现上述的发明目的，本发明采用下述的技术方案：

一种基于知识网络的文本标引系统，其特征在于：

所述文本标引系统包括单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元；其中，

所述单文本特征提取单元接收非结构化的文档，提取文档中的内容关键词并送入所述多文本词关系提取单元；

所述多文本词关系提取单元与所述知识树生成单元中的知识树操作模型进行连接，用于完成多文本词之间的关系提取以及聚类工作；

所述知识树生成单元包括网页结构化信息模块、知识树初始化模块、属性存储模块、知识树存储模块、知识树操作模型和知识树运营平台，所述网页结构化信息模块连接所述知识树初始化模块，所述知识树初始化模块连接所述知识树存储模块，所述属性存储模块也连接所述知识树存储模块，所述知识树存储模块和所述知识树运营平台分别与所述知识树操作模型进行双向的信息交互；

所述知识库存储单元分别与所述知识树操作模型和所述单文本特征提取单元进行连接，用于提供分类用知识库，所述知识树存储模块将相关的应用导出至所述知识树应用单元。

其中，所述多文本词关系提取单元包括针对语义网络的关系挖掘模块、词间网络关系数据模块和词与TAG间关系数据模块，其中该关系挖掘模块一方面连接所述单文本特征提取单元中的关键词提取模块，另一方面分别连接词间网络关系数据模块和词与TAG间关系数据模块。

所述知识树操作模型分别与所述多文本词关系提取单元中的词间网络关系数据模块和词与TAG间关系数据模块进行连接。

所述知识树生成单元利用从互联网上获得的知识体系，直接转化为机器可读的数据结构，再通过所述知识树操作模型进行操作。

一种基于知识网络的文本标引方法，基于上述的文本标引系统实现，其特征在于包括如下的步骤：

(1)对于输入所述文本标引系统的文本，首先进行分词，获取文本中的文本特征词；

(2)根据文本特征词所对应的知识树的节点位置，推演出该文本对应的类别词TAG；

(3)在TAG的基础上，通过判别式模型对TAG的合法性进行判定，由此提炼出可靠的TAG词集，再通过所述可靠的TAG词集重新定位文本特征词词集，形成可靠的文本特征词词集。

在所述步骤(1)中，使用隐马尔科夫模型进行分词。

在所述步骤(3)中，判定合法性的依据是统计上的假设检验是否成立。其中概率在0.5％以下则认为某个TAG与知识树的某个节点之间不存在关联，概率大于90％则认为该关联可靠。

对于新的未分类的词，在所述可靠的TAG词集的基础上，通过所述文本标引系统对批量文本进行标注和关系分析，利用条件概率计算获得所述未分类的词与TAG的关系，从而使所述未分类的词被分在了某个TAG下。

本发明所提供的文本标引系统及其方法具有如下的特点：

系统架构统一，使得内容词提取、类别标注和短语(phrase)的提取一体化；

■内容词提取、类别标注和短语(phrase)的提取的效果能够互相促进；

■各个词的语义通过知识网络的节点得以表现，“篮球的火箭队与火箭发动机”之类的歧义将会被大量减少。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为在本发明所提供的文本标引系统中，基于知识网络的外围逻辑框架示意图；

图2为利用本文本标引方法进行文本类别词提取的操作步骤示意图。

具体实施方式

知识网络(Knowledge Network)的概念最早由瑞典工业界在20世纪90年代中期提出。一般认为，知识网络是在概念网络的基础上添加了权值，从而定量地表示用户对知识节点之间关系的一种结构。其中，知识节点可以在现有的目录搜索引擎中提取，具有独立性、继承性、变异性、多维性等特点。具体而言，知识节点的独立性体现在只有在认识上具有独立性的知识元素、知识单元才能构成知识节点。知识节点的继承性主要表现在两个方面：一个方面表现在知识数量的扩大是通过集成性来实现的，知识数量的增加是在继承的基础上的扩大和产生；另一方面表现在知识性质的继承，同一学科、同一专业的知识具有该学科或该专业的共性。知识节点的变异性是指在知识网络的发展过程中，知识节点通过变异产生新的知识节点来实现知识创新和创造新知识。知识单元的多维性是指知识节点可以多向成簇。即每一个知识节点都可同其他知识节点通过多种多样的形象、属性、关系相连，这种多维性来源于构成知识节点的知识单元内在构成元素、结构和外在形态的多元性。在用户的使用过程中，可以根据某个知识节点的出现次数、用户的反馈信息来更新知识网络。当用户和系统多次交互后，这个知识网络就逼近于用户对某个词义的真实理解。关于知识网络的进一步介绍，可以参考赵蓉英的著作《知识网络及其应用》(北京图书馆出版社2007年8月出版，ISBN：9787501335299)，在此就不详细赘述了。

需要说明的是，知识树是知识网络的一个特殊形式，即知识网络通过多种限制而产生的模型称之为知识树。在本发明的具体实施例中，主要运用了知识树的结构进行计算。但本发明的技术思路可以很容易地推广到知识网络中，在此就不详细说明了。

根据知识网络的上述特点，在本发明所提供的文本标引系统中设置了单文本特征提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单元以及知识库存储单元等。其中，单文本特征提取单元利用倒排文档平度的方法，对文本中识别的单词，包括分词结果、命名实体识别结果、新词识别结果，进行计算获得最能体现文本内容的关键词词集一内容关键词。它接收非结构化的文档，其中的关键词提取模块采用TAG(类别词)提取、命名实体技术等技术手段提取文档中的内容关键词。多文本词关系提取单元用于完成多文本词(即不同知识节点)之间的关系提取以及聚类等工作。该多文本词关系提取单元包括针对语义网络(Semantic network)的关系挖掘模块、采用聚类技术的词间网络关系数据模块和采用贝叶斯(BAYES)分类模型的词与TAG间关系数据模块，其中该关系挖掘模块一方面连接单文本特征提取单元中的关键词提取模块，另一方面分别连接词间网络关系数据模块和词与TAG间关系数据模块。多文本词关系提取单元主要是利用词同现获取每一个单词的同现词集，再通过同现词集的比较来比较两个词单元的相似性。知识树生成单元包括网页结构化信息模块、知识树初始化模块、属性存储模块、知识树存储模块、知识树操作模型和知识树运营平台。其中，网页结构化信息模块连接知识树初始化模块，知识树初始化模块连接知识树存储模块，属性存储模块也连接知识树存储模块。该知识树存储模块与知识树操作模型进行双向的信息交互。另外，知识树运营平台也与知识树操作模型进行双向信息交互。知识树生成单元利用从互联网上获得的知识体系，例如百度百科、互动百科等，直接转化为机器可读的数据结构，再通过知识树操作模型对该知识体系进行读取、查询、创建、修改等操作。知识树操作模型是知识树生成单元的核心组成部分，该知识树操作模型一方面分别与多文本词关系提取单元中的词间网络关系数据模块和词与TAG间关系数据模块相连接，另一方面连接前述的知识库存储单元。知识库存储单元同时与单文本特征提取单元相连接，用于提供分类用知识库。知识树存储模块根据具体应用的需要，将相关的应用导出至知识树应用单元。

上述的文本标引系统可以整合文本的内容关键词提取、类别标注和短语(phrase)的提取，并在一个统一框架下实现文本标引效果的互相促进，从而在文本数据中有效获得重要线索。其中，内容关键词的提取主要用于描述文章的大意，以便能够有效地解决歧义问题，例如：盛大(公司)、(规模)盛大。类别标注能够为该资讯提供有效的管理，并且能帮助用户优化检索。短语(phrase)的提取能够有效为各个网站提供锚连接服务，找到某资讯中某产品的相关词，并提供连接。在获得以上文本特征基础上，对文本的索引抛开词形一级，利用得到的知识树节点号(即知识树上每一个节点的编号，该编号的初始化来自于互联网上开源的知识体系，以深度遍历模式依次进行编号，随后根据对新添加的节点依次编号)、词性等作为索引，可以有效提升文本标引系统的性能。

概括地说，本发明所提供的文本标引系统是一个基于知识树的具有层级关系的概率模型，模型的推导是通过已知的叶子的词，推导出概率最大的节点，该节点就是TAG(类别词)。本发明利用EM(期望最大化)算法，通过大批未标注文本的统计分析不断优化TAG与关键词的统计概率模型，从而使得TAG与内容关键词的标引概率最大化。下面进行详细的说明。

首先阐述几个重要概念：凡是在文章中出现且是文本描述的重要词汇的词称为该文本的内容关键词。定义一个新闻树形分类体系(m叉树，且m没有具体限制)，其中的根节点为虚拟节点，下面一层子节点描述各个大的分类，各个分类节点的下面一层描述更加细致的分类。我们将这些节点的集合命名为节点集，文本如果符合某个节点的分类要求且被标注上了该节点的节点号，则该标注的节点称为该文本的TAG。那么通常情况下，在文本d下，产生TAG标注的可能性则可以描述为P(T|d，μ)；在本发明中，文本通常是由内容关键词W代表的，所以可以转换为P(T|W，μ)。内容关键词W被假设为相互独立的，且通过维护一个新词词表和利用分词以及命名实体识别来从原文中获得。通常情况下，只要μ已知，那么通过Naive Bayes方法就可以计算出文本的TAG标注T。

然而实际情况是μ未知，所以需要通过EM算法进行迭代来近似得到μ。有效的EM算法依赖于较好的初始化参数，因此本发明使用大量的网络上开源的知识和文本信息进行统计得到一个有层级关系的TAG列表以及初始模型μ，通过迭代直到在新的模型μ′下，使P(T|W，μ)的概率达到最大。例如根据已有的知识，我们知道“股市崩盘”通常是“金融危机”的一种表现形式，那么凡是文本关键词出现了“股市崩盘”，则可以比较有把握地认为该文本与“金融危机”相关。那么同时与“股市崩盘”出现的内容关键词也必然与“金融危机”有一定的关联，例如“次贷危机”。随着大量文本的统计，最终可以认为“次贷危机”与“金融危机”息息相关，则“次贷危机”也能够较好地支持文本的“金融危机”TAG的标注。

由于文本在标注上不但有原有的内容关键词，还有推理得到的TAG，则文本的标注将不但照顾细节的准确性(内容关键词)，也照顾到了宏观的概括性。

图2为利用本文本标引方法进行文本类别词提取的操作步骤示意图。对于单篇文本而言，其具体的文本标引操作依赖一个已经成型的层级分类结构。该层级结构包括各个层级类别名、类别号以及相关的属性。在层级类别下，生成若干关键词，这些关键词可以来源于不同资源，例如：百科知识类别下的文本关键词。在本发明中，一共有三种关键词：TAG、锚点关键词和内容关键词，其中TAG、文本关键词都是内容关键词，短语属于锚点关键词。锚点关键词即包括文本中的命名实体词一人名、地名、机构名、专指概念、作品名等一以及固定短语等。

当文本信息传入后进行如下操作：

1.利用HMM(或改进的HMM)等模型对该单篇文本进行分词(或者使用其他方法获得分词)，获取文本中较为重要的关键词(即文本特征词)，在图2中可以理解为词集KEY。HMM模型即隐马尔科夫模型，它是文本信息处理领域的常用算法，在此不予赘述。

2.根据词集KEY所在的知识树的节点位置，推演出该单篇文本对应的类别词TAG。在该步骤中，应用了Rocchio模型。Rocchio模型是一种应用非常广泛的使用了向量空间模型的反馈学习算法，在此就不详细说明了。由图2可知，TAG的集合是通过词集KEY的推演得出的。其中前三个是通过间接推演获得，文本中并没有出现，后两个是文本中含有的关键词；

3.在TAG的基础上，通过判别式模型(判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型，包括最大熵模型和条件随机域模型等)，对TAG的合法性进行判定。判别合法性的依据是统计上的假设检验是否成立。在通常情况下，概率在0.5％以下则可以认为该TAG与知识树的某个节点之间不存在关联的假设成立，而对于概率大于90％的情况则认为该关联可靠。由此提炼出可靠的TAG词集(TAG’)，然后再通过该可靠的TAG词集(TAG’)重新定位关键词词集，形成可靠的文本特征词词集(KEY’)。这一步骤可以非常方便地完成了关键词的提纯和歧义消解。例如文本中出现了丁磊(存在歧义：丁磊除了网易丁磊外，还有通用汽车的丁磊)，其在知识树中的位置对应于T2.i.3和T2.2.2。由于文本判定了类别词范围为T2下的T2.2(互联网)，则该丁磊是网易的丁磊的可能性大大增强了。

例如想知道有谁和通用丁磊有关系，我们可以将以下模板作为检索可能：“人名”+“461471”(通用丁磊的知识网络ID号)。

需要说明的是，对于新的未分类的词(分词结果或新词识别结果)，首先在TAG’的基础上被分配到相应叶节点下，形成可能的节点，然后通过上述文本标引系统对批量文本进行标注和关系分析，利用条件概率计算获得该未分类的词与TAG的关系，从而逐渐确认被分在了某个TAG下。

对于同型串(多个词的组合)，又在同一个分类节点上的，可以被固化为新的短语(phrase)，纳入到知识树中，并输出新的短语(phrase)。

下面以一个实际的新闻文本为例，对本文本标引方法的具体实施效果进行演示：

批的规定。随后，腾讯科技多次致电网易CEO丁磊，对方电话均无人接听。据媒体报道，刚刚参加完互联网大会的丁磊曾惊讶表示，他还不知道这个事情，需要了解一下。腾讯科技随后多次致电网易魔兽项目负责人李日强，对方电话也一直处于无人接听状态。截至发稿前，网易方面未对此事作出回应。

从以上文本中的下划线词集，根据已经获得的知识树模型，我们能够比较自然地推理出TAG为“互联网”，它所在的位置是在技术范畴下的。“万象”是一个虚拟根，将不同领域的树合并在了一起。又由于根据线索得到的“互联网”更能明确“丁磊”是在“互联网”范畴内的，所以能够排除通用汽车的“丁磊”。如果出现了大批这类相似介绍的文本，我们可以进一步推理出“李日强”也是互联网范畴内的一个人名，那么下一次“李日强”出现也可以作为线索来处理。除了互联网范畴，实际上其他范畴也在同时这样工作，共同来推理混合分布参数。比如上文也可能因为“丁磊”推理出“汽车”的范畴，因为“游戏”推理出“娱乐”范畴等，只不过这些的线索有限，推出的概率偏小而已。所以，最后结论当然是“互联网”范畴更准确一些，所以该文本特征词是“互联网”。

以上对本发明所提供的基于知识网络的文本标引系统及其方法进行了详细的说明。对本领域的技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于知识网络的文本标引系统，其特征在于：

2.如权利要求1所述的文本标引系统，其特征在于：

所述多文本词关系提取单元包括针对语义网络的关系挖掘模块、词间网络关系数据模块和词与TAG间关系数据模块，其中该关系挖掘模块一方面连接所述单文本特征提取单元中的关键词提取模块，另一方面分别连接词间网络关系数据模块和词与TAG间关系数据模块。

3.如权利要求2所述的文本标引系统，其特征在于：

4.如权利要求1所述的文本标引系统，其特征在于：

所述知识树生成单元利用从互联网上得到的知识体系，直接转化为机器可读的数据结构，再通过所述知识树操作模型进行操作。

5.一种基于知识网络的文本标引方法，基于权利要求1所述的文本标引系统实现，其特征在于包括如下的步骤：

6.如权利要求5所述的基于知识网络的文本标引方法，其特征在于：

在所述步骤(1)中，使用隐马尔科夫模型进行分词。

7.如权利要求5所述的基于知识网络的文本标引方法，其特征在于：

在所述步骤(3)中，判定合法性的依据是统计上的假设检验是否成立。

8.如权利要求7所述的基于知识网络的文本标引方法，其特征在于：

概率在0.5％以下则认为某个TAG与知识树的某个节点之间不存在关联，概率大于90％则认为关联可靠。

9.如权利要求5所述的基于知识网络的文本标引方法，其特征在于：