CN106951407A

CN106951407A - 基于Spark平台的快速高精度语义相关度计算方法

Info

Publication number: CN106951407A
Application number: CN201710152586.7A
Authority: CN
Inventors: 蔡晨晓; 徐杨; 卜京; 殷明慧; 毕涛; 李旭
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2017-07-14

Abstract

本发明涉及一种基于Spark平台的快速高精度语义相关度计算方法，该方法包括：在服务器上构建HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；Spark平台从HDFS文件系统中读取数据，将数据转换为RDD并将其存储在内存中；将所有任务分为不同的Stage，然后同时运行各个任务；对RDD进行预处理，将RDD中的数据转换为纯文本的形式，过滤与语义相关度计算无关的概念和词语；构建“概念—词语”向量空间；计算词语语义相关度。相对于传统的单机计算，本发明提出的语义相关度计算方法在构建语义空间时，计算速度提高了数倍，同时具有较高的精度。

Description

基于Spark平台的快速高精度语义相关度计算方法

技术领域

本发明属于自然语言处理领域，特别是一种基于Spark平台的快速高精度语义相关度计算方法。

背景技术

词语语义相关度是指两个概念间有关联程度，比如美国和乔布斯，再如物理和爱因斯坦。判断两个词条的相关性是当前语义搜索和自然语言处理领域中遇到的一大难题。语义相关度的计算在自然语言处理领域有着非常重要的意义，是信息检索、文本分类等相关领域的基础。这个过程需要计算机自动建立知识库，获取知识，比较语义，计算词语与概念的相关度完成。在计算自然语言文本相关度时，需要大量的常识性和专业领域相关的词汇知识库。

目前大多数的机器学习算法和自然语言处理还是串行的，当数据量不大时，可以用串行的。但随着云计算和大数据时代的来临，数据呈指数增长，传统的串行算法已经不能满足处理要求，导致成本很大，同时现有的并行计算资源利用率不高，而且要求专门的服务器，不能将普通的PC机利用起来，Hadoop虽然可以满足一部分的大数据处理，但是它是通过Map函数和Reduce函数来实现功能的，Map函数和Reduce函数之间的通信都是通过HDFS文件系统(Hadoop Distributed File System，Hadoop分布式文件系统)的。这样Hadoop的读写HDFS文件系统的次数增加了，导致网络传输增加。而Spark平台是基于内存计算的分布式框架，它将要计算的数据和中间计算结果缓存到内存中，这样可以减少读写磁盘的次数，降低了网络传输带来的耗时和占用空间的代价。

在自然语言处理中，显示语义分析(ESA)算法是一个比较常用的算法，该算法将词汇知识库表示成高维向量词，并使用TFIDF给高维向量词赋予不同的权重。最后计算高维度空间中的夹角余弦值来计算相关度。传统的ESA算法存在着以下问题：

(1)操作复杂。首先需要先把词汇知识库所有文本分词，赋予不同的权重建立索引，之后将需要将进行语义计算的文本切分转换成对应词汇知识库的词项，利用这些词项构建的高维度向量计算语义。

(2)耗时长，占用空间大。在文本分词和构建高维度的“概念—词语”向量空间时，随着需要处理的数据量的增大，算法在计算的空间和时间代价也会随之变大。当处理数据时，需要将数据从文件中读取，这样给I/O、CPU和内存等系统资源造成巨大的压力。因此，现有技术还有待于改进和发展。

发明内容

本发明所解决的技术问题在于提供一种基于Spark平台快速高精度的语义相关度计算方法。

实现本发明目的技术解决方案为：一种基于Spark平台快速高精度的语义相关度计算方法，包括以下步骤：

步骤1、在物理服务器上构建HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；

步骤2、通过客户端向Spark平台提交作业，Spark平台从HDFS文件系统中读取数据，将读取的数据转换为弹性分布式数据集RDD并根据用户程序设定的RDD中Partition数目来启动一定数目的并发线程数读取数据，并将其存储在系统内存中；

步骤3、根据所述RDD中的分区Partition之间的依赖关系，Spark平台将所有任务分为不同的任务组Stage，然后运行各个Stage中的任务；

步骤4、对数据进行预处理，将步骤3中缓存的RDD中的数据转换为纯文本的形式，过滤与语义相关度计算无关的概念和词语；

步骤5、构建“概念—词语”向量空间，将步骤4中预处理的文本内容进行向量化，转化为“概念—词语”空间；并通过特征项的权重计算，计算每一个特征项的权重；

从“概念—词语”空间中抽取“词语”向量，计算两个词语的语义相关度。

本发明与现有技术相比，其显著优点为：(1)本发明基于Spark平台的语义相关度计算方法，通过基于内存的分布式计算方法构建“概念—词语”空间，缩短了大量的时间；(2)随着数据量的不断增加，本发明的方法在计算语义相关度方面能够达到较高的精确度；(3)对自然语言处理和机器学习起到了有效地促进作用：(i)促进了传统的语义相关度算法向并行的语义相关度算法转变；(ii)促进了以Spark平台为基础的算法的改进。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于Spark平台的快速高精度语义相关度计算方法实施的流程框图。

图2为本发明实施例提供的数据预处理流程图。

图3为本发明实施例提供的构建“概念—词语”向量空间流程图。

图4为本发明实施例提供的计算词语语义相关度流程图。

图5为本发明的传统ESA计算方法和基于Spark平台的快速高精度语义相关度计算方法在构建语义向量空间的时间对比。

图6为本发明的基于Spark平台的快速高精度语义相关度算法在不同概念阈值时，得到的Spearman相关系数结果图。

图7为本发明的基于Spark平台的快速高精度语义相关度算法与传统的语义相关度算法的Spearman相关系数的对比图。

具体实施方式

本发明提供一种基于Spark平台的快速高精度语义相关度计算方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。

本发明所涉及的术语解释如下：

(1)特征项

在数据处理模型中每一个特征项代表了一个对语义相关度有用的特征属性，其值称为特征项权重，其计算方法有TF(单一词频)、TFIDF(词频反转文档)等。

(2)语料库

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。

(3)TFIDF(词频反转文档)

TF是词条t在文档d出现的频率，log(N/df)代表是指逆文档频率，其中N代表总的文档数，df代表出现该词条的文档频率。

(4)VSM(向量空间模型)

将文本经过一系列的处理后，转换为对应的向量，向量的维度为文档中对应特征项的数量，每一位的值为特征项的权重。每一个文档都转换成一个向量，最后会形成一个矩阵，由于文档中的特征各不相同，所以对应的向量取值也不同，这样就导致向量的稀疏性，从而形成的矩阵为稀疏矩阵。

(5)RDD(弹性分布式数据集)

RDD是Spark中一个容错的、并行的数据结构，可以根据用户的要求将数据存储到磁盘和内存中，并且能根据用户的设定设置分区数量。不仅如此，RDD还提供了一组丰富的操作来操作数据集。

(6)Job(任务)

一个job对应一个工作任务，它包含了很多的task，每一个task是一个能单独运行的线程。

(7)Task(子任务)

被Driver端送到worker端上的executor上的工作单元，一个task通常会处理一个数据分片。

(8)Worker(工作节点)

集群中实际运行应用程序的代码与处理数据的工作节点，相当于Hadoop的slave节点。

(9)Cluster Manager(集群资源管理)

集群资源管理的外部服务，支持Spark集群的资源管理器主要有Standalone、Yarn、Mesos等。

结合图1，本发明的一种基于Spark平台的快速高精度语义相关度计算方法，具体步骤包括：

进一步的，步骤4中在所述Spark平台上对所述RDD数据进行预处理的具体过程为：

各个工作节点从字符串String类型的RDD中读取数据进行转换操作，先利用开源项目Cloud9提供的API将数据集转化为纯文本的形式的语料库；

进行Filter操作，过滤掉其中非停用词数少于100的概念和描述时间的概念；

进行Filter操作，过滤掉其中的停用词和稀有词。

进一步的，步骤5具体包括以下步骤：

步骤5-1，将预处理的文本内容按照TFIDF权重表示“概念—词语”矩阵的关联度；TFIDF权重是由词语在一篇文章中出现的次数乘以这个词语在整个语料库中的重要程度；所有的“概念”向量采用一系列与它相关的词语表示：Concept＝{Term_1:Vector_1,Term_2:Vector_2,…,Term_k:Vector_k,…,Term_n:Vector_n}，Term_k为词语，Vector_k为第k维词语的权重，n为词语总维数；

进行Filter操作，将TFIDF权重值小于设定阈值的词语过滤；

步骤5-2，将步骤5-1中的“概念—词语”向量构建成“概念—词语”矩阵；提取“概念—词语”矩阵的两个“词语”向量，每个“词语”向量由与它相关的概念表示：L(w_1)＝{Concept_1:Vector_1,Concept_2:Vector_2,…,Concept_m:Vector_m}，m为概念总维数；

步骤5-3，根据步骤5-2中的两个“词语”向量计算得到两个词语的语义相关度。

进一步的，所述Spark平台由低层至高层依次包括存储系统、资源管理器、计算框架及应用层。

下面结合实施例和附图对本发明进一步说明。

实施例

结合图1，一种基于Spark平台的快速高精度语义相关度计算方法，具体步骤包括：

步骤1、在物理服务器上构建的HDFS文件系统和Spark平台，并将维基百科数据集上传到HDFS文件系统中；

步骤2、通过客户端向Spark平台提交作业，Spark从HDFS文件系统中读取数据，将输入数据转换为弹性分布式数据集RDD并根据用户程序设定的RDD中Partition数目来启动一定数目的并发线程数读取数据，并将它存储在内存中；

步骤3、Spark的DAGScheduler根据RDD中的Partition之间的依赖关系，将任务分为不同的Stage，从Job的逻辑执行图中，从后往前推算，遇到ShuffleDependency就将其加入该Stage；每个Stage里面Task数目由该Stage最后一个RDD中的Partition个数决定。如果Stage最后要产生Result，那么该Stage将被划分为ResultTask，否则都是ShuffleMapTask。然后将Stage作为Tasksets提交给底层的TaskScheduler，TaskScheduler负责向Cluster发送Tasksets，并且调用Backend来运行Task。

步骤4、对数据集进行预处理，各个Worker节点从RDD中读取数据进行Transformation操作，先利用Clould9项目提供的API将维基百科的XML文件转化成纯文本，过滤掉其中的歧义页面、重定向页面、空页面、分类页面，提取出概念页面；然后进行Filter操作，过滤掉其中非停用词数少于100的概念和描述时间的概念；此时数据集转化为FilterRDD1，再一次进行Filter操作，过滤掉其中的停用词和稀有词，以去除文本中的一些对语义相关度计算无实际作用的噪声数据，数据集转化为FilterRDD2，并将此时的RDD拷贝一份缓存起来。

步骤5、构建“概念—词语”向量空间，将步骤4缓存的RDD中的文本内容进行向量化；构建词语字典，计算IDF值，并且将这些参数广播到各个工作节点；将预处理的文本内容按照TFIDF权重表示“概念—词语”矩阵的关联度，计算每一个特征项的权重；进行Filter操作将TFIDF权重值小于10的特征过滤。

从“概念—词语”空间中抽取“词语”向量，计算两个词语对的语义相关度。

图2描述了在Spark上的预处理过程中数据集的变化形式，其步骤包括：

步骤1、从HDFS上读取数据集，将数据集存储到RDD中；

步骤2、将上一步形成的ParallelCollectionRDD通过Filter操作过滤掉一些无关概念，如：分类页面，消歧页面，重定向页面；此时，数据集转换为FilteredRDD1；

步骤3、将上一步形成的FilteredRDD1通过Filter操作过滤掉停用词；此时，数据集转换为FilteredRDD2；

步骤4、将上一步形成的FilteredRDD2通过Filter操作过滤掉低频词；此时，数据集转换为FilteredRDD3。

图3描述了在Spark平台上的构建“概念—词语”空间向量过程中数据集的变化形式，其步骤包括：

步骤1、将上一步形成的FilteredRDD3通过Map函数给每一个概念添加概念ID。

步骤2、对上一步的形成的RDD进行计算，计算的方法为TFIDF权重计算方法，将概念向量转化为分布式行向量。此时，数据集转换为MapedRDD1。

步骤3、将上一步形成的MappedRDD1通过Map函数将概念向量转化为词语向量。此时，数据集转换为MappedRDD2。

图4描述了在Spark平台上的计算词语语义相关度过程中数据集的变化形式，其步骤包括：

步骤1、将上一步形成的MappedRDD2通过Filter操作过滤掉TFIDF权重小于阈值α的概念。此时，数据集转换为FilteredRDD4。

步骤2、对上一步形成的FilteredRDD4通过Map函数进行计算，计算的方法为余弦相似度计算方法，得到词语语义相关度。并将结果输出。

所述整个过程都在内存中进行：除了最后一步将结果保存到HDFS文件系统上，其它步骤都是运行在内存中的，这样极大地提高了运算速度。

为了验证本发明所述方法的效果，将此方法与其它方法进行了对比：

ESA(Explicit Semantic Analysis)在计算语义相关度方面达到较高的精确度(其Spearman相关系数高达0.72)。但是ESA是在单机上构建“概念—词语”空间，并没有扩展到并行系统，所以它的时间和空间开销都比较大。

表1实验平台参数

首先进行构建“概念—词语”向量空间时间研究，在这里分别选取了2005年(2.9GB)，2006年(7.6GB)，2008年(13.9GB)的维基百科XML数据作为ESA和本发明提出方法的数据集，对比两个算法的构建语义向量空间的时间。如图5所示，随着输入数据量的增多，相对于ESA，本发明提出的方法大大的提升了构建语义向量空间的效率和减少了构建时间。

在语义相关度评估方面，使用了标准测试集WS-353对本的算法进行评估。WS-353包括353个词语对，分成2组，一组是包含200个词语对的训练集，另一组是包含153个词语对的测试集。本发明使用Spearman相关系数来衡量该的算法。在“概念—词语”向量空间中存在着大量与语义相关度计算无关的概念。当概念TFIDF权重过小时，说明这些概念对于语义相关度计算无关。为了过滤掉与语义相关度无关的概念，引入了概念阈值α。当概念TFIDF权重小于概念阈值时，就将其在词语向量中过滤掉。如图6所示，当概念阈值等于7时，Spearman相关系数达到了最大值(0.797)。

如图7所示，基于维基百科的语义算法：WikiRelate(WLT),Wikipedia Link-basedMeasure(WLM)，基于语料库的语义算法：Latent Semantic Analysis(LSA)，基于词典的语义算法WordNet，本发明提出的方法得到了更好的结果。通过并行计算，能够处理更多的数据量，而且能够节省大量的时间，提高算法效率。

综上所述，本发明应用HDFS文件系统的高容错性、高数据访问吞吐量，将大量的数据集上传到HDFS文件系统中，然后进行数据预处理，通过客户端提交到Spark集群。Spark是基于并行计算和内存计算的云平台，它会将提交的工作化分为一系列的子任务，接着根据数据就近和本地性原则将任务分发到各工作节点。预处理完后，将预处理后的纯文本构建“概念—词语”向量空间，然后计算词语语义相关度。各个任务并行的运行在工作节点上，提高了任务的并行度，减少了数据的处理时间，且大部分数据都驻留在内存中，减少了读写HDFS文件系统的次数，也减少了数据传输的网络开销。

Claims

1.一种基于Spark平台的快速高精度语义相关度计算方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Spark平台的快速高精度语义相关度计算方法，其特征在于，步骤4中在所述Spark平台上对所述RDD数据进行预处理的具体过程为：

进行Filter操作，过滤掉其中的停用词和稀有词。

3.根据权利要求1所述的基于Spark平台的快速高精度语义相关度计算方法，其特征在于，步骤5具体包括以下步骤：

进行Filter操作，将TFIDF权重值小于设定阈值的词语过滤；