CN105630899A

CN105630899A - 一种公共卫生事件预警知识库的构建方法

Info

Publication number: CN105630899A
Application number: CN201510961363.6A
Authority: CN
Inventors: 王理; 蓝俊; 邵劲松; 施维; 薛均; 张远鹏; 董建成; 姚敏; 姚登福
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-06-01
Anticipated expiration: 2035-12-21
Also published as: CN105630899B

Abstract

本发明涉及一种公共卫生事件预警知识库的构建方法，包括构建初始领域知识库，文本分类，词聚类并扩展知识库。通过本方法构建知识库节约了人力成本，保证了知识库的准确性，同时还便于随时扩展更新，为探究抽取突发公共卫生事件的特征、评估突发公共卫生事件的状态、分析突发公共卫生事件的演化、以及预测新事件发生提供了数据基础。

Description

一种公共卫生事件预警知识库的构建方法

技术领域

本发明涉及数据挖掘领域，特别涉及一种公共卫生事件预警知识库的构建方法。

背景技术

近年来，突发公共卫生事件不断产生，并且呈现出间隔时间短、传染病毒多样的特点。2003年，我国内地24个省区市先后发生非典型肺炎疫情(SARS)，共波及266个县和市(区)。2009年3月，墨西哥在“人感染猪流感”疫情中最初发现了甲型H1N1流感病毒，并迅速蔓延。3个月后，WHO宣布将甲型H1N1流感大流行警告级别提升为6级，全球进入流感大流行阶段。截至2010年3月31日，全国31个省份累计报告甲型H1N1流感确诊病例12.7余万例，其中死亡病例800例。2013年3月，H7N9禽流感开始在全国范围内扩散，截止2014年1月全国已累计报告246例，死亡60多例。近10年来，三次大规模的病毒爆发与流行，虽然死亡人数得到控制，但是，国家、政府和个人每次都投入了大量的人力与财力。

突发卫生事件发生的突然性，发展的迅速性以及影响的巨大性，决定了事件应对措施必须及时准确。对于突发公共卫生事件，从医学角度研究疾病的致病因素固然重要，从事件自身内在的角度研究事件也很重要。也就是说，分析突发公共卫生事件，积累其中预警预测，应急处理，过程评估和事态恢复等方面的知识，将会提高对突发公共卫生事件的处理能力。

如今，互联网信息常被作为突发事件研究的信息载体。由于互联网以及移动终端能够实现信息的发布，阅读和转载，从而为突发事件信息的产生、扩散乃至泛滥提供了环境，形成了主流新闻媒体和门户网站为主导，博客以及社交网络为重要补充和并存的多样化信息获取来源。这就造成了突发公共卫生事件信息具有分布广泛、数据量大、快速传播和不断更新的特点。这样的信息分布结构与特点给突发事件的信息采集获取带来了极大困难。而且，突发事件的信息形成阶段极其隐蔽，发展阶段速度极快，转折点难于捕获，由此带来的问题难以用传统的数据挖掘方法解决。

一方面，目前传统的数据挖掘方法基于统计学，该类方法只适于不再产生增量的文本数据集进行处理，当面对增量文本以及大数据量的文本时会遇到了很大的问题。在面对增量文本时，当前处理得出的结果和下一刻有增量文本加入后处理得出的结果可能有较大偏差；在面对大数据量文本时，计算机运算所需要的时间将达到一个骇人的程度、为得出结果所花费的时间代价是我们无法承受的。

另一方面，当前是大数据与云存储的时代，大量关于事件的相关信息存在于互联网中，为事件挖掘提供了丰富的素材，事件挖掘研究开始面向大规模的实时动态事件新闻信息流。所以，事件挖掘研究不仅仅满足于传统研究中对话题与命名实体的提取，开始向挖掘事件本身内部隐含的信息深入。

为此，一种有效的解决方法是以知识库为基础，规则与机器学习相结合，建立网络信息流中新闻文本处理模型，以实现对特征项集的挖掘、分类、聚类、变化及异常发现等数据流分析工作，进一步能够追溯突发公共卫生事件发生前的潜在现象与诱发因素，探究抽取突发公共卫生事件的特征，评估突发公共卫生事件的状态，分析突发公共卫生事件的演化，以及预测新事件发生。

然而目前的问题是现有技术有没有有效的方法来构建公共卫生事件预警知识库，人工构建知识库存在工作量大且不能自动扩展和完善的问题。

发明内容

为此，本发明的目的是提供一种可以自动实现的公共卫生事件预警知识库的构建方法，使用该方法可以使得知识库实现自扩展、自完善。

本发明提供的一种公共卫生事件预警知识库的构建方法，包括以下步骤：

S100构建初始领域知识库；

S200文本分类；

S300词聚类并扩展知识库。

通过本发明的方法，具有以下优点：

(1)由于整个方法大部分可以通过计算机实现，节约了人力成本；

(2)由于计算机实现不易出错，因此可以确保知识库构建的准确性；

(3)由于公共卫生事件具备突发性，且其舆情、疫情随时变化，本方法具有可扩展性，可以随着事件发展随时更新知识库。

附图说明

图1是突发公共卫生事件知识库构建总体流程图；

图2是初步构建领域知识库的流程图；

图3是文本分类的流程图；

图4是计算各段落中词的权重的流程图；

图5是词聚类的流程图；

图6是聚类算法的流程图；

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明，但不作为对本发明的限定。

在本实施例中，以H7N9为目标事件为例，先通过Wikipedia以及利用专家知识等建立一并不完善的领域知识库。通过分析事件文本的内容属性，实现知识库自身结构与内容方面的扩展。

参见图1，对H7N9事件的知识库的构建可以划分为以下几个步骤：

S100：构建初始领域知识库；

S200：文本分类；

S300：词聚类并扩展知识库。

这些步骤的具体实现将在下文中详细给出。需要指出的是：为了叙述严谨，在执行某些步骤前我们指明进行文本预处理操作，而绝大部分的文本预处理结果(如无特殊说明)在起初的预处理中便已得到，在实验中使用这些结果即可，不需要将原语料文本重新处理。

图2为构建初始领域知识库的流程，从图中可以看到，首先我们获取一定数量的H7N9事件文本，将其分类并提取出词组或词，最后将提取的词组或词进行结构化处理，得出知识库的属性和值。该步骤具体包括：

S110：领域分析。从网络媒体中，包括新浪网，腾讯网与新华网上搜集关于H7N9病毒突发卫生事件的事件文本，分析H7N9流感事件生命周期所涉及的各个领域；

S120：框架建立。包括通过阅读文献人工选择代表性领域术语作为属性，构建事件框架；

S130：根据文献中的知识等，填充初始领域知识库中的属性和值。

在领域知识库初步构建后，接下来对抓取到的文本进行分类，具体步骤结合图3说明如下：

S210：对事件文本进行预处理(包括文本分段、分词、词性标注以及语法结构分析)这里主要使用分段、分词的结果；

S220：依据TF-IDF公式计算各段落中词的权重；

S230：对以段落为单位的文本进行关键词标记，取出关键词的TF-IDF权值；

S240：以关键词建立空间向量模型，将段落文本映射到空间中。

参见图4，其中步骤S220依据TF-IDF公式计算各段落中词的权重进一步包括：

S221：新闻文本预处理。按照文本中的自然段落进行分段，并给定唯一段落编号，建立索引；

S222：使用语义分析器对每个段落文本进行分词、词性标注、语法结构分析，整理出段落号与词构成的序偶<段落号，词>；

S223：按照段落号对序偶进行排序、分组，作为任务组发布到Reducer；

S224：统计各个段落中出现词的词频，存储统计结果，建立索引与段落相对应；

S225：使用数据库操作技术SQL命令整理得到词与段落号构成的序偶<词，段落号>；

S226：按照词进行序偶排序与任务分组，发布到Reducer；

S227：计算倒排文档频度，并存储；

S228：再次利用数据库操作技术SQL命令，求解各个段落中各个词的TF-IDF权重值，并输出结果。

对文本进行分类后，接下来对分类后的文本中的词进行聚类操作，并扩展知识库。在聚类过程中，我们需要使用词与词之间的关系，为了使计算机可以理解这些关系，定义了文档词关系表示模型。文档词关系表示模型的本质是无向连接图，因此其具有无向连接图的属性，这些属性定义如下：

结点的度(d)：若结点与其他结点具有联系，即结点之间存在边。假设结点a与N个结点具有联系，那么该结点的度d(a)＝N。若将无向连接图中的结点与矩阵的下标建立关系，那么无向连接图的度可以使用度矩阵(D)来唯一标识，并为计算机可获取。

图与图合并：若两个子图(假定为图A与图B)中，均存在(且至少存在)一对具有联系的结点，记为结点a、结点b，那么两个子图可以合并。记在图A和图B中结点a，b之间的权重分别为w1和w2，合并后的图中，结点a与结点b之间的权重W＝w1+w2。

邻接矩阵(A)：图中结点之间的边的值代表结点之间的关联，计算机无法直接获取，解决方法是将无向连接图转换为其邻接矩阵，按照求度矩阵时结点与矩阵下标之间建立的关系，可以将图中的边所具有的权重映射到矩阵之中。假定图中有N个结点，那么矩阵的规模为N*N，假定结点a、b分别对应下标0、1且结点之间的边的权重为w，矩阵定义为Array[N][N]，因为无向连接图不具有联系的方向性，所以，令矩阵中的Array[0][1]＝w或Array[1][0]＝w均可以表示无向连接图中的边，这就是无向连接图的邻接矩阵的对称性，不再单独介绍，因为这种对称性，所以无向连接图的邻接矩阵只需要使用一半的存储空间，一般而言，我们使用矩阵的上部分，对应到上面的例子，令Array[0][1]＝w。

接下来结合图5，对词聚类的具体步骤说明如下：

S310：解析语法分析的结果。语法分析的结果以XML文本形式展现，通过解析，将其修改为带格式的txt文本。格式例如：Text_IDPara_IDSentence_IDWordNode1命名实体句法关系类别WordNode2

S320：段落中具有的句法关系的词构成了无向连接图，得出无向连接图的邻接矩阵。在计算地址时可以利用DoubleArrayTrie进行快速寻址。关于DoubleArrayTrie，可以参考以下文献：

王思力，张华平，王斌.双数组Trie树算法优化及其应用研究[A]，中文信息学报，第20卷，第5期：PP25-26；

TheppitakKaroonboonyanan.AnImplementationofDouble-ArrayTrie[Z]，http://linux.thai.net/～thep/dat-rie/datrie.html，2003.

Jun-IchiAoe，KatsushiMorimoto，TakashiSato，AnEfficientImplementationofTrieStructures[J].Software-PracticeandExperience.1992，22(9):695-721.

AoeJ.AnEfficientDigitalSearchAlgorithmbyUsingaDouble-ArrayStructure[J].IEEETransactionsonSoftwareEngineering.1989，15(9):1066-1077.

S330：求邻接矩阵的广义逆矩阵。

S340：按照距离计算公式计算段落中任意两个词之间的距离。具体为：

将词关系表示模型中结点之间的关系视为电导率，则对应结点之间的电阻为电导率的倒数，进而可以得到电阻网络。得到电阻网络后，我们通过拉普拉斯图L计算任意词之间的电阻，L＝A-D，其中A是图的邻接矩阵，D是图的度矩阵，则任意两个结点(词)j、k之间的电阻(距离)为

r_{j k} = L_{j, j}^{+} + L_{k, k}^{+} - L_{j, k}^{+} - L_{k, j}^{+},

其中L⁺为图L的伪逆矩阵。

S350：重复S320-S340，直至该类中所有的段落都得到处理。

S360：根据单一段落中词与词之间的距离计算该文本集中任意两个词的距离，因为任意两个段落内的句法是互不干涉的，所以按照并联公式计算文本集中任意两个词的距离。对于N个段落中的结点(词)A、B而言，其在整个文本集中的距离为：

R_{A B} = 1 \div Σ_{i = 1}^{N} \frac{1}{r_{i A B}}

其中，r_iAB是指在段落i中，从A到B的距离，当在段落i中A、B两个词没有联系时，其距离为无穷大。

S370：将所有段落的无向连接图合并，得到该簇中整个文本集的无向连接图，执行程序得到其邻接矩阵，这里可以使用DoubleArrayTrie快速寻址，通过邻接矩阵得到无向连接图的度矩阵。

S380：分析度矩阵，研究无向连接图中每个节点的度，寻找聚类中心。具体寻找聚类中心的算法随后介绍。

S390：根据S360获得的词距离和S380所得聚类中心进行聚类。聚类算法随后介绍。

需要说明书的是：步骤S380寻找聚类中心与步骤S390聚类过程是交织在一起的，严格的说，寻找聚类中心是聚类过程的一部分，为了方便说明，才将之独立为两个步骤。

下面结合图6，介绍聚类算法(步骤S380、S390)。首先约定如下定义：

1.聚类中心候选点N：通过聚类中心寻找算法选取一些结点作为将要聚类类簇的中心点，这些结点被称为聚类中心候选点，简称候选点。例如结点a被选中为候选点，则记为Na。

2.待聚结点node：结点中除候选点外所有的结点被称为待聚结点。例如结点b未被选为候选点，则认为是待聚结点，记为nodeb。

3.距离DIS：表示结点与结点之间的距离。例如结点a与结点b之间的距离记为DISab，应当理解DISab与DISba是一致的。

4.候选点间最小距离dis：特使用于候选点之间，表示对于候选点Na，遍历Na与其他所有候选点之间的距离DISa*后，选取最小值，记为候选点Na的候选点间最小距离disa。

5.距离阈值T：聚类中心候选点为Na，则所有满足DISax<T的待聚结点x构成的集合聚为一个类C，将这个T称作距离阈值。

6.重叠区域lap：假定类C1和类C2的聚类中心分别为Na、Nb，当DISab<2T时，类C1和类C2会在空间上有重叠部分，对这部分重叠区域记为lap。

7.终止阈α：在聚类算法中作为终止条件的参数。

首先指出，聚类过程核心思想是将满足距离候选点距离小于T的待聚结点划分到对应的类中，并将之从待聚结点中去除，而对于重叠区域的点，我们遵循如下原则：重叠区域中的待聚结点划分到距离最近的聚类中心候选点对应的类中。

聚类中心寻找算法(步骤S380)如下：

S381：将所有人为标注的种子记为聚类中心候选点N，建立矩阵存储他们之间的相互聚类DIS。

S382：获得所有聚类中心候选点间最小距离dis，构成集合Set_dis。

S383：计算Set_dis中数据的均值作为距离阈值，使用阈值T计算公式如下：

T = \frac{1}{2} \times \frac{1}{n} \times Σ_{i = 1}^{n} {Set}_{d i s i} .

S384：调用聚类算法进行聚类，判断聚类算法是否满足终止条件，若满足则结束，若不满足则进入步骤S385。

S385：取待聚结点中度最高的结点添加到候选点中，重复步骤S381-S384。

聚类过程核心思想是将满足距离候选点距离小于T的待聚结点划分到对应的类中，并将之从待聚结点中去除，而对于重叠区域的点，我们遵循如下原则：重叠区域中的待聚结点划分到距离最近的聚类中心候选点对应的类中。

提出重叠区域的目的是衡量当前方案的优劣，我们认为最优解是噪声点外所有的点都被区分且不存在重叠区域，这里存在两条含义：1.尽可能多的点得到聚类；2.重叠区域尽可能小。实际情况中，当距离阈值T变动时，重叠区域会发生变化，可能出现这样的情况：时，最终聚类结果一致，且都存在重叠区域，但我们认为对应重叠区域更小的(或者说重叠区域中包含结点数较少的)更接近于最优解，这符合含义2。

仔细思考我们会发现可聚类的结点数量与重叠区域之间存在一定规律，假设所有聚类中心已确定，当T的取值从0逐渐增大时，可聚类的结点数量和重叠区域有增大趋势，在这个过程的前部分，我们逐渐接近最优解，当T增大到一定程度时，所有的结点都将得到聚类(假定刚好全部得到聚类时的T记为T’)，当T继续增大时重叠区域会逐渐增大，最终整个空间都是重叠区域，此时我们已经离最优解越来越远。整个过程中，我们无法认为T’对应最优解，我们只能认为在T’的附近，甚至是或都无法预测，这受到样本的影响。这里主要对聚类的结点数量与重叠区域之间的规律进行描述，意图引出聚类算法中的终止判断条件，并帮助读者理解终止条件的可行性、可靠性，实际情况中，关于T的讨论会更加复杂，因为聚类中心处于逐渐寻找中。

我们发现如果盲目的进行距离比对，虽然算法思路简单，但是为了完成聚类的目的，程序将设计多次的嵌套与循环，效率是低下的。问题的关键在于重叠区域上，在上面的分析中，我们发现只要将可划分的结点划分到最近的类中就可以了，为了找到重叠区域中的结点，我们需要知道待聚结点是否与多个候选点之间的距离满足关系：DIS≤T。为此，对于待聚结点x，应用排序算法得到x与所有候选点N之间距离的最小值d’_x(对应类C1)与次最小值d”_x(对应类C2)，进行如下聚类处理：

1.d’_x＞T时，该待聚结点无法划归到已发现的类中；

2.d’_x≤T且d”_x＞T时，该结点可以进入C1，NUM_C＝NUM_C+1，但该结点不属于重叠区域；

3.d’_x≤T且d”_x≤T时，该结点可以进入C1，NUM_C＝NUM_C+1，且该结点是重叠区域中的结点，NUM_O＝NUM_O+1。

以上内容就是我们聚类算法中的核心内容，我们形象地将之称为“二小值判断法”，聚类算法(S390)如下：

S391：聚类中心寻找算法的S381–S383；

S392：遍历待聚结点与聚类中心之间的距离，使用排序算法取最小值与次小值；

S393：对所有待聚结点重复S392工作；

S394：对所有待聚结点使用“二小值判断法”划分类簇；

S395：终止判断，可终止时终止聚类过程，不可终止时进入聚类中心寻找算法S385。

这里判断聚类算法是否满足终止条件的标准为：当可划分到类簇中的结点数量(NUM_C)占总结点数量(NUM_S)的比例大于等于(1-α_unclassed)，且重叠区域中的结点数量(NUM_O)占总结点数量的比例小于等于α_lap时，认为聚类达到最优解，聚类过程终止。优选地α_unclassed＝α_lap＝0.05。

需要声明的是，上述发明内容及具体实施方式意在证明本发明所提供的技术方案的实际应用，不应理解为对本发明保护范围的限定。本领域的技术人员在本发明的精神和原理内，所作的任何修改或等同替换都应包含在本发明的保护范围内，本发明的保护范围以所附权利要求书为准。

Claims

1.一种公共卫生事件预警知识库的构建方法，包括以下步骤：

S100构建初始领域知识库；

S200文本分类；

S300词聚类并扩展知识库。

2.根据权利要求1所述的构建方法，其中步骤S100构建初始领域知识库包括：

S110从网络媒体中搜集关于公共卫生事件的事件文本，分析公共卫生事件生命周期所涉及的各个领域；

S120通过阅读文献人工选择代表性领域术语作为属性，构建事件框架；

S130根据文献中的知识，填充初始领域知识库中的属性和值。

3.根据权利要求1所述的构建方法，其中步骤S200文本分类进一步包括：

S210对事件文本进行预处理；

S220依据TF-IDF公式计算各段落中词的权重；

S230对以段落为单位的文本进行关键词标记，取出关键词的TF-IDF权值；

S240以关键词建立空间向量模型，将段落文本映射到空间中。

4.根据权利要求2所述的构建方法，其中步骤S220依据TF-IDF公式计算各段落中词的权重进一步包括：

S221按照文本中的自然段落进行分段，并给定唯一段落编号，建立索引；

S222使用语义分析器对每个段落文本进行分词、词性标注、语法结构分析，整理出段落号与词构成的序偶<段落号，词>；

S223按照段落号对序偶进行排序、分组，作为任务组发布到Reducer；

S224统计各个段落中出现词的词频，存储统计结果，建立索引与段落相对应；

S225使用数据库操作技术SQL命令整理得到词与段落号构成的序偶<词，段落号>；

S226按照词进行序偶排序与任务分组，发布到Reducer；

S227计算倒排文档频度，并存储；

S228再次利用数据库操作技术SQL命令，求解各个段落中各个词的TF-IDF权重值，并输出结果。

5.根据权利要求1所述的构建方法，其中步骤S300词聚类并扩展知识库进一步包括：

S310解析语法分析的结果；

S320根据段落中具有的句法关系的词构成的无向连接图，得出无向连接图的邻接矩阵；

S330求邻接矩阵的广义逆矩阵；

S340计算段落中任意两个词之间的距离；

S350重复S320-S340，直至该类中所有的段落都得到处理；

S360根据单一段落中词与词之间的距离计算该文本集中任意两个词的距离；

S370将所有段落的无向连接图合并，得到整个文本集的无向连接图，进而得到其邻接矩阵，通过邻接矩阵得到无向连接图的度矩阵；

S380分析度矩阵，研究无向连接图中每个节点的度，寻找聚类中心；

S390根据获得的词的距离和获得的聚类中心进行聚类。

6.根据权利要求4所述的构建方法，其中步骤S340计算段落中任意两个词之间的距离r_jk具体通过下式得到：

r_{j k} = L_{j, j}^{+} + L_{k, k}^{+} - L_{j, k}^{+} - L_{k, j}^{+},

其中j、k代表任意两个词，L⁺为图L的伪逆矩阵，拉普拉斯图L＝A-D，其中A是图的邻接矩阵，D是图的度矩阵。

7.根据权利要求4所述的构建方法，其中步骤S360根据单一段落中词与词之间的距离计算该文本集中任意两个词的距离R_AB具体通过下式得到：

R_{A B} = 1 \div Σ_{i = 1}^{N} \frac{1}{r_{i A B}}

其中，A、B代表任意两个词，N为段落数，r_iAB为段落i中从A到B的距离，当在段落i中A、B两个词没有联系时，其距离为无穷大。

8.根据权利要求4所述的构建方法，步骤S380寻找聚类中心进一步包括：

S381将所有人为标注的种子记为聚类中心候选点，建立矩阵存储他们之间的相互聚类距离DIS；

S382获得所有聚类中心候选点间最小距离dis，构成集合Set_dis；

S383：计算Set_dis中数据的均值作为距离阈值T，计算公式如下：

T = \frac{1}{2} \times \frac{1}{n} \times Σ_{i = 1}^{n} {Set}_{d i s i};

S384：调用聚类算法进行聚类，判断聚类算法是否满足终止条件，若满足则结束，若不满足则进入步骤S385；

9.根据权利要求7所述的构建方法，其中步骤S384中判断聚类算法是否满足终止条件为：

当可划分到类簇中的结点数量NUM_C占总结点数量NUM_S的比例大于等于1-α_unclassed，且重叠区域中的结点数量NUM_O占总结点数量的比例小于等于α_lap时，认为聚类达到最优解，聚类过程终止，其中α_unclassed和α_lap为终止条件参数。

10.根据权利要求8所述的构建方法，步骤S390根据获得的词的距离和获得的聚类中心进行聚类的聚类算法进一步包括：

S391执行寻找聚类中心算法的S381–S383；

S392遍历待聚结点x与聚类中心之间的距离，使用排序算法取最小值d’_x与次小值d”_x；

S393对所有待聚结点重复S392工作；

S394对所有待聚结点，进行如下划分类簇处理：

d’_x＞T时，该待聚结点无法划归到已发现的类中，

d’_x≤T且d”_x＞T时，该结点可以进入C1，NUM_C＝NUM_C+1，但属于重叠区域，

d’_x≤T且d”_x≤T时，该结点可以进入C1，NUM_C＝NUM_C+1，且该结点是重叠区域中的结点，NUM_O＝NUM_O+1；

S395执行步骤S384，可终止时终止聚类过程，不可终止时进入聚类中心寻找算法S385。