CN104933164B

CN104933164B - 互联网海量数据中命名实体间关系提取方法及其系统

Info

Publication number: CN104933164B
Application number: CN201510366176.3A
Authority: CN
Inventors: 蔡毅; 李靖楠; 闵华清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2018-10-09
Anticipated expiration: 2035-06-26
Also published as: CN104933164A

Abstract

本发明公开了一种互联网海量数据中命名实体间关系提取方法，包括以下步骤：网络信息爬取和语料库构建；文本预处理；提取代表短文档特征的关键词；获得代表实体关系的“实体‑关系模式”；关系标注，利用这些模式在大量的无结构文本中寻找新的“实体关系对”；实体关系对评估；本发明还公开了一种实现互联网海量数据中命名实体间关系提取方法的系统，包括：网络信息爬取模块、信息预处理模块、特征词提取模块、实体关系提取和评估模块。具有使关系查找系统更加方便扩展和具有较高的运行效率等优点。

Description

互联网海量数据中命名实体间关系提取方法及其系统

技术领域

本发明涉及一种互联网海量数据中命名实体间的关系提取技术，特别涉及一种互联网海量数据中命名实体间关系提取方法及其系统，本发明是一种适应于海量数据的基于频繁词和加权熵的关系提取方法和系统，同时为了适应互联网巨大的数据量和保持灵活的扩展性，并且结合了Hadoop分布式技术。

背景技术

目前，互联网技术高速发展，堆积在互联网中的数据呈爆炸性的指数型增长，21世纪初以来，因为网络硬件设施的快速发展以及存储介质愈来愈廉价，互联网中数据的存储量更是达到了前所未有的巨大，世界中几乎每一个人都为其源源不断的贡献着数据资源。在这种背景下，技术、商业、管理以及金融等领域都在悄然的发生着巨大的变化，人们的思潮也开始了新一轮的变革，正在迎接着“大数据”时代的来临，正在体验和适应着“大数据”时代带给生活方式乃至思考方式的大变革。

然而，数据量的巨大是静态的，如果没有科学的方法和技术去“挖掘”其中所蕴含的知识，将忽略这笔巨大的资源。本发明所探讨的命名实体关系提取方法，就是面向互联网这些大量的结构化、半结构化甚至无结构的文本，构建一个迭代的分布式提取框架去完成对这些静态数据资源的自动解析和知识发现，用以实现互联网下命名实体关系的提取，构建实体关系网络。

基于互联网的命名实体关系提取(Web-based Entity Relation Extraction)在当前互联网技术高速发展的今天已经逐渐成为了一个极具潜力的研究方向，从一个巨大的语料库中探寻蕴含在不同命名实体之间的关系是一项具有挑战性并且很有意义的研究，其在自然语言处理(Natural Language Processing)的众多领域均有着广泛的应用，例如信息检索(Information Retrieval)、问答系统(Question Answering)、语义搜索(SemanticSearch)和文本挖掘(Textual Mining)等。命名实体的排歧作为对于命名实体中同名实体间歧义的消除，是使关系提取更为准确从而面向语义层面的重要一步，使关系的提取对于之前更多的从字面层面出发进化到对实体本身所代表意义的关注，从而使得实体之间的关系更加牢固和可信。

考虑到频繁的词语更能代表一个文档的关键字，在基于频繁词的n元组方法中可以获得一个关系类别中常出现的词语，过滤掉那些没意义且关系无关的词语，提高关系查找能力。考虑了类别对词语权重影响的加权熵方法就是这样一种获得常用类别词语的方法，这个方法改进了频繁词不能完全代表文档主题的问题，进一步提高了关系提取中的准确率。

分布式计算理论和技术的飞速发展推动了大量的对海量数据研究的进展，这些理论和技术中最具有划时代意义的便是MapReduce计算模型和Hadoop框架，利用它们，可以构建出灵活的高可扩展的分布式计算框架，本发明正是借助MapReduce计算模型和Hadoop框架构建出了一个能够稳定运行的分布式实体关系提取框架。

对海量互联网文本的获取可以利用当前成熟的爬虫技术，互联网爬虫通过对由网站内的链接组成的网络进行广泛遍历，连续的获得大量所需的信息，利用当前成熟的网络爬虫理论可以构建出高效的网络爬虫。

中文文本处理技术的发展为本研究的开展奠定了坚实的基础，例如中文分词和词性标注在目前学术界和工业界均有较为成熟的解决方案，对于这些理论和技术的掌握与应用是本发明顺利开展的基础。

发明内容

本发明的首要目的在于克服现有技术的缺点与不足，提供了一种互联网海量数据中命名实体间关系提取方法，该方法通过使用一种基于频繁词和加权熵的关系提取方法，并面向多对多的多元关系，提高了提取实体关系对的召回率，改进了频繁词不能完全代表类别主题的问题，提高了关系提取中的准确率。

本发明的另一目的在于克服现有技术的缺点与不足，提供一种互联网海量数据中命名实体间关系提取方法的系统，该系统为了使得命名实体间关系的查找能够持续运行于当今互联网海量数据中，使得关系查找系统更加方便扩展和具有较高的运行效率，本系统利用了开源的Hadoop分布式框架和MapReduce计算模型。

本发明的首要目的通过下述技术方案实现：互联网海量数据中命名实体间关系提取方法，包括以下步骤：

网络信息爬取和语料库构建，从百科网站上爬取命名实体以及关于实体的文本解释，百科类网站上包含大量无结构和半结构化的实体细节描述信息，同时，互联网中依然存在大量结构化的实体数据，称之为“种子”数据，即从结构化互联网文档中提取的关系明确的实体对，这部分信息将作为训练数据指导更大量的实体关系标注；

文本预处理，将爬取到的文本进行分词、词性标注和去除停顿词处理；

提取多对多候选关系对，现实中的关系不是仅仅存在一对一的关系，例如一本书完全有可能有多个作者，一个导演完全有可能拍摄过多部影片，实体关系应当是可以组成网络的多元关系，本发明在提取候选对的时候不再局限于二元关系；

提取代表短文档特征的关键词，利用频繁词提取方法和改进于其的加权熵方法可以获得短文本中表示文本意义的关键词；

获得代表实体关系的“实体-关系模式”，利用由结构化数据获取的“种子”数据和提取的短文本中的关键词组成一个表达实体关系的“实体-关系模式”，所谓“实体-关系模式”就是包含这一对“种子”的短文本，例如在“#大张伟#_P在春节晚会上唱了《#倍儿爽#_S》这首歌”这段短文本中(‘#’之间是命名实体和它的ID，‘_’之后是命名实体的属性)，包含了一个人物和一首歌曲，可以获得“P在春节晚会上唱了S这首歌”这样一段“实体-关系模式”，并且由于“大张伟-倍儿爽”这个“实体关系对”的类别为“演唱者”，所以这段模式被划分为“演唱者”关系的模式，这其中每一个模式被当作一个向量，向量中每一个经过中文分词等预处理后的词语都被赋予了权重，在系统中使用词频(Term-Frequency)作为每一个词语的权重，模式中的包含类别信息，例如人物(P)、电影电视剧(M)、音乐(S)以及书籍(B)等。

关系标注，即获取“实体关系对”，利用这些模式在大量的无结构文本中去寻找新的“实体关系对”，例如以上“实体-关系模式”，当包含有人物和歌曲的短文本出现，并且它们的文本和这条关系模式足够“相似”的话，那么可以认为这里的人物是这首歌曲的演唱者，这里的“相似”是利用之前文本预处理后为每一个词语赋予的权重作为度量然后计算相似度相互比较得出的。

实体关系对评估，对已经产生的“实体-关系模式”以及候选“实体关系对”的评价和筛选是本发明中极其重要的一环，认为有价值的“实体-关系模式”才能产生有价值的“实体关系对”，且有价值的“实体关系对”才能够作为“种子”继续服务于下一轮命名实体关系的查找与提取。

所述的网络信息爬取和语料库构建为：

当前工业界存在有大量优秀的爬虫框架，Scrapy是一个用Python语言编写的开源爬虫框架，用来抓取网站并从中提取数据，从数据挖掘到监控和自动化测试的领域都有广泛的应用。它实现了一个爬虫的大部分模块，并且把大部分爬虫操作模块化，从而对外提供各种接口，可以灵活地实现想要的功能，正是借助了Scrapy框架来完成对语料库知识的构建。

因为的任务需要大量的包含命名实体数据且存在较多说明性内容的文本，然后可以利用的方法去挖掘文本中这些命名实体之间的关系，所以一般百科类的站点比较适合去使用，百度百科是中文信息知识库较为全面的公共站点，它其中包含着大量的命名实体词条，选择它作为大量无结构文本内容的来源，这一部分也是机器学习算法主要的处理部分。

同时，需要一些关系明确的训练数据，即明确了实体之间关系的数据，在本文中称之为“种子”数据，使用这些由“种子”组成的训练数据去学习的命名实体关系提取模型。为了获得这些“种子”数据组成的先验知识，还应当去抓取一些存在着结构化数据的站点，这一部分站点主要是一些资讯网站，例如存在大量音乐、电影和书籍信息和数据的豆瓣网、存在大量电影电视剧资讯以及明星关系信息的时光网，以及众多的电子商务网站，它们之中存在大量的出售的书籍的信息，例如京东书店。在以上站点中，成功获取了大量关系明确的训练数据。

所述的提取代表短文档特征的关键词为：

在很多“实体-关系模式”中，有一些词语并不能够很好的表现一个关系类别，不属于能够代表特定关系的特征词，比如春节晚会是一个专用词语，它的出现不能够代表所在的模式是能够产生“演唱者”关系类别的，因为春节晚会不仅有唱歌，还有舞蹈、小品等等，所以这部分词语在“演唱者”的关系模式中认为属于不重要的那一部分，甚至可能产生干扰，在有些经过预处理过的包含多个实体的短文本中，比如“#乔羽_P#所著作的《#难忘今宵_S#》是春节晚会的结束曲”，从它之中可以提取的“实体-关系模式”为“<{}，P，{著作_v}，S，{春节晚会_nz，结束曲_n}，()>”，在这两段模式中，相同的词语只包含了“春节晚会”，那么这个词语对这二者之间相似度的贡献最大，但是它不能代表第二段模式也会被标记为“演唱者”(乔羽是该歌曲的作词人)，这样的词语对关系的查找产生了干扰。

所以一个改进的地方是去除这些不能代表关系特征的词语，然后将剩余的词语组成新的“实体-关系模式”，且认为在一种关系类别中频繁出现的词语才可以代表这类关系的特征，但是频繁词在某些条件下也存在问题，例如“<{著名_a，歌唱家_n}，P，{演唱_v}，S，{}，(演唱者)>”，虽然“歌唱家”和“演唱”对于歌曲与歌手的“演唱者”关系具有明显的代表作用，但是“著名”这个词语在很多关系类别中均会频繁出现，例如歌曲与作词人的“作词者”关系，很多作词人也十分著名，还有著名导演、著名演员、著名编剧等，类似的词语还有“撰写”、“编写”、“制作”以及一些例如“知名”、“伟大”、“脍炙人口”等广泛使用的形容词，它们所描述的类别本身就存在一些相似，比如以上词语可以用于“演唱者”、“作词者”、“编剧”、“演员”等人与艺术品比如音乐、影片的关系中，这些词语势必会对分类造成一定的干扰，所以基于频繁词的n元组模型中的词语虽然可以找到一个类别中的频繁词，但依然存在着“频繁但不能代表类别特征”的问题。

受TF-IDF思想的启发，本发明提出了一个“类别作用下的加权熵”算法，TF-IDF算法用来衡量一个词语在一个文档中的重要程度，一个词语在一个文档中出现的次数越多，且在其它文档中出现的次数越少则这个词语更能代表这个文档的特点，从而作为这个文档的特征词，表明这个词语对表现这个文档的特征十分“重要”。

“类别作用下的加权熵”算法的思路和TF-IDF类似，将这里文档的概念替换为类别即可，表明一个词语在一个类别中出现的次数越多且在其它类别中出现的次数越少则越能够代表这个类别的特征。熵的概念表明信息的分布，当这个分布越平稳则熵越大，越不平稳则熵越小，换到当前词语对类别的贡献中，当一个词语在所有类别中出现的次数都差不多，即在所有类别中的分布都比较平稳，那么它的熵就比较大，越不能代表一个类别特征，反之，当一个词语只在一个类别中出现较多次，而在其它类别中出现较少，即这个词语在所有类别中的分布很不均匀，只是集中分布在一个类别的话它的熵就会很小，那么它就越能代表一个关系的类别。且针对每个文档长度的不同，每个词语在不同长度的文档中贡献不同的特点，在越长的文档一个词语出现的越多则显得这个词语越发重要，一个文档比较长，但是这个词语出现的很少，那么它不能明显的代表这个文档，所以的熵还应当和文档长度特征对应，相当于这个熵具有一定的权重，这就是“加权熵”的概念，利用加权熵的计算词语权重的方法为：

其中，i表示第i个词，j表示样本中存在j个类别，c_ij表示第i个词在第j个类别的所有样本中出现的总次数，cw_i表示第i个词在全部样本中出现的总次数，因为此时熵越大表明一个词越不能代表一个类别的特征，所以对以上权重的计算方法进行修正，使得其值越大即一个词语的权重越大则这个词语越能代表一个类别的特征，修正的权重计算方法为：

这个结果介于0-1之间，当权重越靠近1表明一个词语越能代表一个类别的特征，相反，越靠近0则表示这个词语在不同类别之间都比较通用。

所述的获得代表实体关系的“实体-关系模式”为：

“实体-关系模式”是指在其中出现了某个“种子”的短文本，把匹配了这些“种子”的文本首先提取出来，根据种子中实体对出现的顺序将这个文本分为left、middle、right三个向量，且附带“种子”所表示的关系类型，表示为：

p＝＜left,tag1,middle,tag2,right,(relation_type)＞

其中，tag1和tag2分别表示种子中每个命名实体的属性标签(P、M等)，left、middle和right是分别被这个种子中两个实体的属性标签隔开的三段语句组成的向量，relation_type(RT)表示这一“实体-关系模式”的关系类别，根据以上定义，上一节的例子用定义的“实体-关系模式”可以表示为：<{}，P，{春节晚会_nz_0.034371，唱_v_0.049823}，S，{歌_n_0.06821}，(演唱者)>，这段“实体-关系模式”中已经去除了停用词，在每一个向量中，“_”分隔下的左边部分表示一个词语，中间表示这个词语的属性，即词性，右边部分是这个词语的词频值，利用这样的方式表示每一个利用“种子”产生的“实体-关系模式”。

当“实体-关系模式”产生后，利用William和Ricardo的single-pass聚类算法将那些“足够”相似的模式合并起来，single-pass聚类算法计算当前项与现有的各个簇的相似度，如果相似度大于给定阈值，则放入相似度最大的类，否则单独成一类，该算法的特点是效率高，但效果不是特别明显，并且算法不是特别稳定，因为文档输入顺序将影响聚类结果，然而在此任务中，需要处理大量的文本数据，聚类不是的主要目的，对聚类的效果要求却并不是特别高，只要较为相似的模式能够组合在一起就达成了的目的，所以结合性能与效率考虑，采用了这个简单的聚类算法。因为模式向量中的每一个词语都在预处理中为其赋予了权重，所以可以用任意计算相似度的方法比较任意模式是否“足够”相似，当大于一定阈值T_sim的模式会将其合并，组成一个新的模式：

式中，n是聚类簇中成员个数，表示每个新的向量是簇中每个成员中相同元素词频的均值，这样在簇中各个成员共有的词语越少那这个词的词频会衰减，在新的“实体-关系模式”中的作用就会被合理的削弱，注意只有当每个模式中两个实体属性标签相同，即tag1和tag2相同的情况下才能对其进行聚类。此外，在比较相似之前，在“实体-关系模式”中的每一个向量都对其进行了归一化。

所述的关系标注包括以下步骤：

当获得了大量的“实体-关系模式”后，可以利用它们来在语料库中寻找新的“实体关系对”，例如“倍儿爽-演唱者-大张伟”，表示大张伟是歌曲《倍儿爽》的演唱者，类似的关系类型还有“人物-父母-人物”、“歌曲-作词-人物”以及“电视剧-演员-人物”等等。

在寻找“实体-关系模式”之间相似度的过程中，因为中文语句里一般能够表明关系的陈述语句主要位于句子的中间或后半部分，所以假设“实体-关系模式”中左中右三个向量的权重是不同的，对于中间和右边向量权重的设置会大于左边向量的权重。以下为提取关系对的伪代码算法，表现了提取“实体关系对”这一过程：

CreatePattern方法指从一段包含实体对的文本中提取出一个不包含关系类别的“实体-关系模式”，Sim方法用来计算模式之间的相似度，AddPatternToTuple方法将所有相似度大于阈值的模式都存储到这对实体对中，这部分将在下一节模式的评价中发挥作用，其中与其最相似模式的关系类别将赋予给此实体对，最后，方法返回找到的所有候选“实体关系对”，这些候选关系对不一定最终都存在，只有通过筛选的对才会留下来并作为“种子”进行下一轮实体关系提取过程。

所述的实体关系对评估包括以下：

将所有相似度大于阈值的关系明确的“实体-关系模式”都存储到了相关的实体对中(利用AddPatternToTuple方法)，这里的关系明确是因为这些模式是利用“种子”产生的。因为每一个关系明确的“实体-关系模式”都有自己的关系类型relation_type(RT)，且每一个“实体-关系模式”都有可能产生不止一个候选实体对，这些候选实体对又被与它们最相似的模式标记了当前的关系类型，所以，扫描每一个“实体-关系模式”所产生的所有候选实体对，将与这个模式关系类型相同的候选实体对计入“正例模式集合”，相反，与这个模式关系类型不同的候选实体对则计入“反例模式集合”，最后通过计算“正例模式集合”之中候选实体对的数量在所有正反例模式集合中的比例来表明该模式的价值，比例越高的模式越有价值，表示它越能够产生正确的有价值的“实体关系对”，这一计算可以被称为寻找“实体-关系模式”的“支持度”，用公式表示如下：

其中，Positive_set表示“正例模式集合”，Negative_set表示“反例模式集合”，Support表示一个模式的“支持度”，模式支持度的意义表示了这个模式是否能够很好的产生它所代表的关系类别的“实体关系对”。

P表示产生了这些候选实体对的“实体-关系模式”。在评价完成这些由“种子”产生且关系类别明确的“实体-关系模式”后，将利用它们来评价在这次命名实体关系提取的迭代中所产生的所有候选“实体关系对”。假设只有有价值的模式才能产生有价值的“实体关系对”，因为一个“实体关系对”可能由多个“实体-关系模式”产生，且这每个“实体-关系模式”都使用了之前的计算方法获得了一个“支持度”来表明自身的价值，所以这些产生了这一个关系对的所有模式可以联合起来表达这一个关系对存在的概率，同样，称这个概率为该“实体关系对”的“支持度”，公式如下：

其中，Tuple表示一个“实体关系对”，因为“实体关系对”可能由n个“实体-关系模式”产生，所以Pattern_i是“实体关系对”的第i个“实体-关系模式”，它们结合起来表示了这对实体之间关系的可信度。

这样，一个关系对的价值可以被产生它的所有模式表示出来，最后通过设置一个实验条件下的阈值T_sup来筛选出“支持度”较高的关系对，并可以将这些关系对加入到“种子”库，进行新一轮的命名实体关系提取迭代。图1展示了本发明的总体流程图。

本发明的另一目的通过下述技术方案实现：一种互联网海量数据中命名实体间关系提取方法的系统，包括：

网络信息爬取模块，从百科网站上爬取命名实体以及关于实体的文本解释，百科类网站上包含大量无结构和半结构化的实体细节描述信息，以及爬取大量结构化的种子实体数据，作为训练集；

信息预处理模块，用于将爬取到的中文文本进行分词、词性标注、去除停顿词；

特征词提取模块，利用频繁词提取方法和改进于其的加权熵方法获得短文本中表示文本意义的关键词的模块；

实体关系提取和评估模块，利用预处理后的数据获得“实体-关系模式“以及“实体关系对”，完成实体关系标注和实体关系对的评估。

其中，所述的网络信息爬取模块包括：

爬取模块，使用Scrapy框架实现，Scrapy是一个用Python语言编写的开源爬虫框架，用来抓取网站并从中提取数据，从数据挖掘到监控和自动化测试的领域都有广泛的应用。它实现了一个爬虫的大部分模块，并且把大部分爬虫操作模块化，从而对外提供各种接口，可以灵活地实现想要的功能，本发明正是借助了Scrapy框架来完成对语料库知识的构建，如图2所示，展示了Scrapy爬虫框架的结构。

使用信息爬取模块，本发明所构建的语料库中的数据大致分为两部分，结构化的实体关系数据和无结构或半结构的文本数据。结构化的实体数据主要选取豆瓣网、时光网、京东书城等具备“北京爱情故事导演：XXX”、“统计学习基础作者：XXX”等类型的数据，因为这些数据中的实体之间天生具有关系，所以这些数据在产生实体关系结果的同时可以作为“种子”去发现半结构甚至无结构的文档中所蕴含的实体关系模式。半结构或无结构的数据主要来自百度百科，百度百科具有700多万条词条，包含着目前中文环境下的大部分实体关系，是一个巨大的知识库，但其数据大部分没有一个特定的结构，是本发明机器学习算法主要集中处理的部分。

所述的信息预处理包括：

对语料库文本的预处理主要包括中文分词处理、词性标注处理、移除停词处理以及计算词语的权重。近年来自然语言处理领域中对中文分词的研究和开发工作取得了较为突出的成果，本发明借助当下已有的成熟解决方法ansj_seg分词系统，ansj_seg分词系统是一个基于google语义模型和条件随机场模型的中文分词的Java实现，其分词速度达到每秒钟大约200万字左右，准确率能达到96％以上，目前实现了中文分词、中文姓名识别，同时支持用户自定义词典，它可以应用到自然语言处理等方面，适用于对分词效果要求较高的各类项目和研究。为了方便对词语以及由词语组成的语句向量进行可以量化的度量，采用词语在文档中出现的频率，即词频(Term-Frequency)，作为每一个词语的权重，每个词语都拥有一个相对于所构建的语料库的统计量，以此达到量化词语的目的。

所属的特征词提取模块包括以下：

如本发明前文所言，特征词提取模块主要是实现了“类别作用下的加权熵算法”，即实现以下：

以及修正的考虑了文本长度的算法：

其中，i表示第i个词，j表示样本中存在j个类别，c_ij表示第i个词在第j个类别的所有样本中出现的总次数，cw_i表示第i个词在全部样本中出现的总次数，最终结果介于0～1之间，当权重越靠近1表明一个词语越能代表一个类别的特征，相反，越靠近0则表示这个词语在不同类别之间都比较通用。

例如：一个“实体-关系模式”：<{著名_a，歌唱家_n}，P，{演唱_v}，S，{}，(演唱者)>，在利用词频表示词语权重的时候分别为<{著名_a_0.04481，歌唱家_n_0.05212}，P，{演唱_v_0.049823}，S，{}，(演唱者)>，利用加权熵算法计算之后获得的词语权重分别为：<{著名_a_0.01481，歌唱家_n_0.05922}，P，{演唱_v_0.076434}，S，{}，(演唱者)>。可以看出，利用加权熵算法计算的词语权重更能代表当前“演唱者”这一类别。

所属的实体关系提取和评估模块包括以下：

为了方便的处理海量数据，使得系统更加容易进行扩展，本发明将系统设计为使用MapReduce计算模型的并行处理系统，本发明使用伪代码的方式展示该系统几个重要部分的MapReduce实现，包括提取“实体-关系模式”、提取“实体关系对”和评价“实体-关系模式”与“实体关系对”这三个核心部分。

以上伪代码展示了提取“实体-关系模式”分布式实现，mapper方法利用“种子”在一段文本中寻找“实体-关系模式”，getTuples方法获得一段文本中被预处理过程标记的实体，如果这对实体存在于“种子”中，那么将使用CreatePattern方法将这段文本中的相关词语提取成为一段“实体-关系模式”，其中RT表示这个模式根据“种子”获得的实体关系类型，最后，按照这两个实体各自的标签(P、M等)作为这个mapper输出的key。在这段reducer中没有特别的处理，它仅仅收集key相同的模式，将它们合并到一处文档并输出。这样，获得了以实体标签为分类的“实体-关系模式”集合。

以上伪代码展示了提取“实体关系对”分布式实现的mapper方法和reducer方法，mapper方法遍历每一个待处理文本，当一个文本存在实体对的话就从这个文本中抽取一个“实体-关系模式”，随后遍历每一个关系明确的模式，与它们每一个计算相似度，将相似度大于阈值的模式加入产生该“实体关系对”的模式集合中，将最相似的模式的关系类别赋予该“实体关系对”，最后，遍历输出产生该“实体关系对”的模式集合，并输出该“实体关系对”。在reducer方法中，它遍历一个模式所产生的所有“实体关系对”，对比这些“实体关系对”的关系类别和产生它们的“实体-关系模式”的关系类别，分别计算正例集合和反例集合，最后计算这个模式的“支持度”并输出每个“实体关系对”和产生它的模式的“支持度”。

以上伪代码展示了评价“实体关系对”的分布式实现，在mapper方法中，利用产生该“实体关系对”的模式的“支持度”计算每一个“实体关系对”的“支持度”，不过此时还是部分结果，当进行到reducer方法时，每一个“实体关系对”将获得所有产生它的模式的“支持度”，随后，计算这个实体对的“支持度”，且当该“支持度”大于一定阈值后将其输出，获得最终结果。

本发明的工作原理：本发明利用关系明确的种子实体对在原始文中匹配“实体-关系模式”，这其中每一个模式被当作一个向量，向量中每一个经过中文分词等预处理后的词语都被赋予了权重，在本发明中使用词频作为每一个词语的权重。在获得所有的“实体-关系模式”后，利用这些模式在大量的无结构文本中去寻找新的“实体关系对”，通过“实体-关系模式”获得大量新的“实体关系对”之后，本发明不认为当前的所有“实体关系对”都是完全正确的，所以需要筛选出其中“可信度”较高的“实体关系对”，这就是对“实体-关系模式”和“实体关系对”可信度评估的步骤，最后通过的评估方法存留下来的可信度较高的“实体关系对”最终又加入到“种子库”中，进行新一轮的“实体关系对”挖掘。这其中“实体-关系模式”中的特征词通过“类别作用下的加权熵算法”提取，通过这个算法可以更好的获得能够代表一个文本类别的特征语。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提出了一个改进了的关系提取和评估方法。在这个方法中关系不再只是考虑一对一的二元关系，而是面向多对多的多元关系，并且系统在运行中同时关注多个关系类型，从而在一定程度上提高了关系提取中的召回率。本发明其中每一个实体关系都会被标记有一个明确的关系类别，且它在运行中仅需要少量的人工参与。

2、本发明在实体关系对的提取中更加高效和易于扩展，且运行开销小，其中实现了分布式处理海量文本的方法，利用当下广泛使用的MapReduce并行算法和实现了这个算法的开源Hadoop并行计算框架，可以有效的提高算法的运行效率，并使得整体计算过程具有更高的可扩展性，方便扩展到数台计算机组成的集群下。

3、本发明提出和使用了类别作用下的加权熵算法，表明一个词语在一个类别中出现的次数越多且在其它类别中出现的次数越少则越能够代表这个类别的特征，且针对每个文档长度的不同，每个词语在不同长度的文档中贡献不同的特点，在越长的文档一个词语出现的越多则显得这个词语越发重要，利用该方法可以更好的获得代表类别的特征词。

4、基于互联网的命名实体关系提取已经逐渐成为了一个极具潜力的研究方向，从一个巨大的语料库中探寻蕴含在不同命名实体之间的关系是一项具有挑战性并且很有意义的研究，其在自然语言处理的众多领域均有着广泛的应用。在本发明中的关系不只是考虑一对一的二元关系，而是面向多对多的多元关系，在运行中也不止是关注一种类型的关系，且本发明利用信息熵原理提高了提取文本特征词的能力，在一定程度上提高了关系提取中的准确率和召回率，本发明在运行中也仅需要少量的人工参与，并且，本发明使用了开源的Hadoop分布式框架，使得关系查找系统更加方便扩展和具有较高的运行效率。

附图说明

图1本发明的总体流程图。

图2为Scrapy爬虫框架的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，一种互联网海量数据中命名实体间关系提取方法，包括以下步骤：

网络信息爬取和语料库构建，从百科网站上爬取命名实体以及关于实体的文本解释，并从互联网中存在大量结构化的实体数据，即“种子”数据，这部分信息将作为训练数据指导更大量的实体关系标注；

获得代表实体关系的“实体-关系模式”，例如在“#大张伟#_P在春节晚会上唱了《#倍儿爽#_S》这首歌”这段短文本中(‘#’之间是命名实体和它的ID，‘_’之后是命名实体的属性)，获得“P在春节晚会上唱了S这首歌”这样一段“实体-关系模式”，并将这段模式被划分为“演唱者”关系的模式；

关系标注，即获取“实体关系对”，利用这些模式在大量的无结构文本中去寻找新的“实体关系对”；

实体关系对评估，对已经产生的“实体-关系模式”以及候选“实体关系对”评价和筛选，并将通过评估的“实体关系对”作为“种子”继续服务于下一轮命名实体关系的查找与提取。

下面对本发明提供的一种联网海量数据中命名实体间的关系自动提取方法作详细说明：

首先介绍本发明中网络信息爬取模块。如图2所示，展示了Scrapy爬虫框架的结构，利用爬虫引擎对互联网文本进行爬取并进行结构化保存，如百度百科、京东书城等。考虑到很多页面使用AJAX技术来动态加载评论，本发明利用WebKit模拟用户的一般浏览行为，并利用Scrapy爬虫框架进行信息的收集。数据流动由Scrapy内部的引擎进行控制，数据处理流程为：1、引擎打开一个域名，定位出处理该域名的蜘蛛(用户自定义的类，用于从解析回应、提取相应的项或者提取出特定的URL用于后续爬取)，然后请求蜘蛛提供种子URL；2、引擎从蜘蛛获取种子URL，然后包装为请求在调度器中进行调度；3、引擎从调度器获取接下来进行爬取的请求；4、调度器将下一个待爬取的请求返回给引擎，然后引擎将它们发送到下载器；5、当网页被下载器下载完成以后，响应内容被发送到引擎；6、引擎在收到下载器的响应后，将响应发送到蜘蛛进行处理；7、蜘蛛处理响应并返回爬取到的项，然后给引擎发送新的请求；8、引擎将抓取到的项放入项目流水线，并向调度器发送请求。重复第二步和后面的操作，调度器中所有请求都完成，然后断开引擎与域之间的联系。

互联网爬虫是获取海量信息的重要手段，但一般的站点都存在着反爬虫措施，一般有如下几种反爬虫措施：检测短时间内重复访问的IP进而屏蔽该IP的访问，检测user-agent等浏览器行为并将用户信息存储在cookie中从而记录判断是否是用户的真实浏览和访问行为等等。为了获得研究所需的信息，对于反爬虫的站点使用了定时切换外网IP、定时切换user-agent、定时清除cookie等措施，对于以上措施不奏效的情况则适当降低的抓取频率以防止被屏蔽。

下面提取短文档特征的关键词：

利用加权熵的计算词语权重的方法为：

这个结果介于0～1之间，当权重越靠近1表明一个词语越能代表一个类别的特征，相反，越靠近0则表示这个词语在不同类别之间都比较通用。

接下来获得代表实体关系的“实体-关系模式”：

“实体-关系模式”是指在其中出现了某个“种子”的短文本，把匹配了这些“种子”的文本首先提取出来，根据种子中实体对出现的顺序将这个文本分为左中右三个向量，且附带“种子”所表示的关系类型，表示为：

p＝＜left,tag1,middle,tag2,right,(relation_type)＞

关系标注包括以下步骤：

在寻找“实体-关系模式”之间相似度的过程中，因为中文语句里一般能够表明关系的陈述语句主要位于句子的中间或后半部分，所以假设“实体-关系模式”中左中右三个向量的权重是不同的，对于中间和右边向量权重的设置会大于左边向量的权重。

最后对实体关系进行评估：

本发明扫描每一个“实体-关系模式”所产生的所有候选实体对，将与这个模式关系类型相同的候选实体对计入“正例模式集合”，相反，与这个模式关系类型不同的候选实体对则计入“反例模式集合”，最后通过计算“正例模式集合”之中候选实体对的数量在所有正反例模式集合中的比例来表明该模式的价值，比例越高的模式越有价值，表示它越能够产生正确的有价值的“实体关系对”，这一计算可以被称为寻找“实体-关系模式”的“支持度”，用公式表示如下：

在评价完成这些由“种子”产生且关系类别明确的“实体-关系模式”后，将利用它们来评价在这次命名实体关系提取的迭代中所产生的所有候选“实体关系对”。假设只有有价值的模式才能产生有价值的“实体关系对”，因为一个“实体关系对”可能由多个“实体-关系模式”产生，且这每个“实体-关系模式”都使用了之前的计算方法获得了一个“支持度”来表明自身的价值，所以这些产生了这一个关系对的所有模式可以联合起来表达这一个关系对存在的概率，同样，称这个概率为该“实体关系对”的“支持度”，公式如下：

这样，一个关系对的价值可以被产生它的所有模式表示出来，最后通过设置一个实验条件下的阈值T_sup来筛选出“支持度”较高的关系对，并可以将这些关系对加入到“种子”库，进行新一轮的命名实体关系提取迭代。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种互联网海量数据中命名实体间关系提取方法，其特征在于，包括以下步骤：

网络信息爬取和语料库构建，从百科网站上爬取命名实体以及关于实体的文本解释，并从互联网中抓取大量结构化的实体数据，组成“种子”数据，这部分信息将作为训练数据指导更大量的实体关系标注；

提取代表短文档特征的关键词，利用频繁词提取方法和改进于其的加权熵方法即“类别作用下的加权熵”算法获得短文本中表示文本意义的关键词；

所述“类别作用下的加权熵”算法将文档中的概念替换为类别，并通过词语在某个类别中出现的次数以及该词语在其它类别中出现的次数来判断该词语是否代表所述某个类别的特征；利用加权熵的计算词语权重，计算所述词语权重的计算方法如下：

其中，i表示第i个词，j表示样本中存在j个类别，c_ij表示第i个词在第j个类别的所有样本中出现的总次数，cw_i表示第i个词在全部样本中出现的总次数；对上述权重计算方法进行修正，修正后的权重计算方法如下：

修正后的权重计算结果介于0～1之间，当权重越靠近1，表明一个词语越能代表一个类别的特征，相反，当权重越靠近0，则表示这个词语在不同类别之间是通用的；

获得代表实体关系的“实体-关系模式”，并将每一个模式当作一个向量，向量中每一个经过中文分词等预处理后的词语都被赋予权重，模式中包含类别信息；

所述“实体-关系模式”是指在其中出现了某个“种子”的短文本，把匹配了这些“种子”的文本首先提取出来，根据种子中实体对出现的顺序将这个文本分为left、middle、right三个向量，且附带“种子”所表示的关系类型，表示为：

p＝＜left,tag1,middle,tag2,right,(relation_type)＞

其中，tag1和tag2分别表示种子中每个命名实体的属性标签，left、middle和right是分别被这个种子中两个实体的属性标签隔开的三段语句组成的向量，relation_type表示这一“实体-关系模式”的关系类别，每一个向量分别由词语、词性和这个词语的词频组成，即“词语_词性_词频”，利用这样的方式表示每一个利用“种子”产生的“实体-关系模式”；

当“实体-关系模式”产生后，利用single-pass聚类算法将“足够”相似的模式合并起来，模式向量中的每一个词语都在预处理中被赋予了权重，利用计算相似度的方法比较每一个模式是否“足够”相似，当相似度大于一定阈值时，则将“足够”相似的模式合并起来，组成一个新的模式：

式中，n是聚类簇中成员个数，表示每个新的向量是簇中每个成员中相同元素词频的均值，每个向量是合并后向量的中值，注意只有当每个模式中两个实体属性标签相同，即tag1和tag2相同的情况下才能对其进行聚类；

并且，在比较相似度之前，对“实体-关系模式”中的每一个向量都进行归一化处理；

关系标注，即获取“实体关系对”，利用这些模式在大量的无结构文本中寻找新的“实体关系对”；

2.根据权利要求1所述的互联网海量数据中命名实体间关系提取方法，其特征在于，所述的网络信息爬取和语料库构建包括以下步骤：

利用Scrapy框架来构建语料库知识；

根据任务的需求需要采用大量文本，所述文本包含有命名实体数据和说明性内容，挖掘文本中所有命名实体之间的关系；同时，根据任务的需求还需要采用关系明确的训练数据，即明确了命名实体之间关系的数据，把所述明确了命名实体之间关系的数据称之为“种子”数据，使用这些由“种子”组成的训练数据去学习所述命名实体关系并提取模型；为了获得这些“种子”数据组成的先验知识，还需要抓取一些存在着结构化数据的站点，所述站点是资讯网站，所述资讯网站中存在大量关系明确的训练数据。

3.根据权利要求1所述的互联网海量数据中命名实体间关系提取方法，其特征在于，所述的关系标注包括以下步骤：

当获得了大量的“实体-关系模式”后，利用所述大量的“实体-关系模式”在语料库中寻找新的“实体关系对”，且对获取的“实体关系对”进行评估，只有通过评估筛选才留下来并作为“种子”进行下一轮实体关系提取过程；

所述的实体关系对评估包括以下步骤：

将所有相似度大于阈值的关系明确的“实体-关系模式”都存储到相关的实体对中；

扫描每一个“实体-关系模式”所产生的所有候选实体对，并将与这个模式关系类型相同的候选实体对计入“正例模式集合”，相反，与这个模式关系类型不同的候选实体对则计入“反例模式集合”；

通过计算“正例模式集合”之中候选实体对的数量在所有正反例模式集合中的比例来表明该模式的价值，比例越高的模式越有价值，表示它越能够产生正确的有价值的“实体关系对”，把所述计算“正例模式集合”之中候选实体对的数量在所有正反例模式集合中的比例来表明该模式的价值称为寻找“实体-关系模式”的“支持度”，计算所述“支持度”的计算公式表示如下：

其中，Positive_set表示“正例模式集合”，Negative_set表示“反例模式集合”，Support表示一个模式的“支持度”，模式支持度的意义表示了这个模式是否能产生它所代表的关系类别的“实体关系对”；

在评价完由“种子”产生且关系类别明确的“实体-关系模式”后，将利用“实体-关系模式”来评价在这次命名实体关系提取的迭代中所产生的所有候选“实体关系对”；假设只有有价值的模式才能产生有价值的“实体关系对”，因为一个“实体关系对”可能由多个“实体-关系模式”产生，且每个“实体-关系模式”都通过获得一个“支持度”来表明自身的价值，所以产生了这一个关系对的所有模式可以联合起来表达这一个关系对存在的概率，称所述概率为该“实体关系对”的“支持度”，所述“实体关系对”的“支持度”的表达式如下：

Support(Tuple)表示这对实体之间关系的可信度，Tuple表示一个“实体关系对”，因为“实体关系对”可能由n个“实体-关系模式”产生，所以Pattern_i是“实体关系对”的第i个“实体-关系模式”，所有“实体-关系模式”结合起来表示了这对实体之间关系的可信度。

4.一种实现权利要求1所述的互联网海量数据中命名实体间关系提取方法的系统，其特征在于，包括：

网络信息爬取模块，从百科网站上爬取命名实体以及关于实体的文本解释，百科类网站上包含大量无结构和半结构化的实体细节描述信息，以及爬取大量结构化的种子实体数据，作为训练集的模块；

特征词提取模块，利用频繁词提取方法和改进于其的加权熵方法即“类别作用下的加权熵”算法获得短文本中表示文本意义的关键词的模块；

实体关系提取和评估模块，利用预处理后的数据获得“实体-关系模式”以及“实体关系对”，完成实体关系标注和实体关系对的评估；

p＝＜left,tag1,middle,tag2,right,(relation_type)＞

并且，在比较相似度之前，对“实体-关系模式”中的每一个向量都进行归一化处理。

5.根据权利要求4所述的互联网海量数据中命名实体间关系提取系统，其特征在于，所述的信息获取模块包括：

利用爬虫引擎对互联网文本进行爬取并进行结构化保存，利用WebKit模拟用户的一般浏览行为，并利用Scrapy爬虫框架进行信息的收集；数据流动由Scrapy内部的引擎进行控制，数据处理流程具有以下步骤：a.引擎打开一个域名，定位出处理的域名的蜘蛛，所述蜘蛛为用户自定义的类，用于从解析回应、提取相应的项或者提取出特定的URL以用于后续爬取，然后请求蜘蛛提供种子URL；b.引擎从蜘蛛获取种子URL，然后包装为请求在调度器中进行调度；c.引擎从调度器获取接下来进行爬取的请求；d.调度器将下一个待爬取的请求返回给引擎，然后引擎将它们发送到下载器；e.当网页被下载器下载完成以后，响应内容被发送到引擎；f.引擎在收到下载器的响应后，将响应发送到蜘蛛进行处理；g.蜘蛛处理响应并返回爬取到的项，然后给引擎发送新的请求；h.引擎将抓取到的项放入项目流水线，并向调度器发送请求；重复步骤b至步骤h，直到调度器中所有请求都完成，然后断开引擎与域之间的联系为止。

6.根据权利要求4所述的互联网海量数据中命名实体间关系提取系统，其特征在于，所述的信息预处理包括：

对语料库文本的预处理主要包括中文分词处理、词性标注处理、移除停词处理以及计算词语的权重；利用ansj_seg分词系统，采用词语在文档中出现的频率即词频，作为每一个词语的权重，每个词语都拥有一个相对于构建的语料库的统计量，从而量化词语。

7.根据权利要求4所述的互联网海量数据中命名实体间关系提取系统，其特征在于，所属的实体关系提取和评估模块包括以下：

使用MapReduce计算模型的并行处理系统，所述MapReduce计算模型包括：提取“实体-关系模式”、提取“实体关系对”部分和评价“实体-关系模式”与“实体关系对”部分；

提取实现“实体关系对”分布式的mapper方法和reducer方法，所述mapper方法遍历每一个待处理文本，当一个文本存在实体对的话就从这个文本中抽取一个“实体-关系模式”，随后遍历每一个关系明确的模式，与它们每一个计算相似度，将相似度大于阈值的模式加入产生该“实体关系对”的模式集合中，将最相似的模式的关系类别赋予该“实体关系对”，最后，遍历输出产生该“实体关系对”的模式集合，并输出该“实体关系对”；所述reducer方法遍历一个模式所产生的所有“实体关系对”，对比这些“实体关系对”的关系类别和产生它们的“实体-关系模式”的关系类别，分别计算正例集合和反例集合，最后计算这个模式的“支持度”并输出每个“实体关系对”和产生它的模式的“支持度”；

在所述mapper方法中，利用产生“实体关系对”的模式的“支持度”，计算每一个“实体关系对”的“支持度”，当进行到reducer方法时，每一个“实体关系对”获得所有产生模式的相应“支持度”，最后，计算这个实体对的“支持度”，并且当“支持度”大于一定阈值后将实体关系输出。