CN108132929A

CN108132929A - 一种海量非结构化文本的相似性计算方法

Info

Publication number: CN108132929A
Application number: CN201711416937.7A
Authority: CN
Inventors: 蔡红霞; 任民山; 魏壮宇; 朱政; 张微
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-08

Abstract

本发明公开了一种海量非结构化文本的相似性计算方法。该方法基于传统的Simhash算法进行改进，克服了传统的文本相似性计算方法中准确率不够、计算效率不高的问题。其相似性计算得方法步骤为：（1）、获取所需非结构化数据信息，对数据进行预处理；（2）、对文档内容进行分词，去除停用词，提取关键词，计算每篇文档中每个关键词的特征值权重；将关键词进行二进制化；（3）、累计求解，二进制降维得到每篇文档的改进Simhash值；通过计算两个Simhash值的海明距离得到两篇文档的相似度。

Description

一种海量非结构化文本的相似性计算方法

技术领域

本发明公开了一种海量非结构化文本的相似性计算方法，属于文本相似性计算领域。

背景技术

在现有的机械研制系统中，存在海量的非结构化文档，当用户输入关键词进行搜索时，只能匹配搜索到包含该关键词的文档，存在一些语义相似的文档未能被搜索出来，因此需要实现相似性文档搜索，即需要计算海量文本的相似性。传统的方法将文本相似性问题转化为关键词、关键项或关键语句的相似性问题，容易出现以偏概全或以点带面现象，影响结果的准确性和完整性。另外，这些关键特征的提取需要耗费很多时间，且需要多种特征同时参与检索，在数据规模很大时显得效率低下。

发明内容

本发明的目的在于针对已有技术存在的不足，提供一种海量非结构化文本的相似性计算方法，该方法基于传统的Simhash算法(用来网页去重的最常用hash方法，hash是指就是把任意长度的输入通过散列算法，变换成固定长度的输出，该输出就是散列值)进行改进，克服了传统的文本相似性计算方法中准确率不够、计算效率不高的问题。

为达到上述目的，本发明的构思是：

使用一种低碰撞率的Simhash算法来识别存储系统中的相似数据。考虑到传统Simhash算法的关键词权重是基于关键词出现的频率，该计算不能精确计算出文档特征的Simhash值，引入ICT-CLAS分词技术(Institute of Computing Technology,ChineseLexical Analysis System，中国科学院计算技术研究所提出的一种分词系统)和TF-IDF技术(Term Frequency–Inverse Document Frequency，一种用于信息检索与数据挖掘的常用加权技术)，并将关键词的词性与词长作为权衡特征值权重的考虑因素来增加Simhash指纹值的精确性，同时将整个改进的算法基于MapReduce框架(一种用于大规模数据集并行计算的编程模型，概念"Map(映射)"和"Reduce(归约))进行计算以提高计算效率。然后使用带索引功能的海明距离来检测文档之间的相似程度。

根据上述构思，本发明采用如下技术方案：

一种海量非结构化文本的相似性计算方法，具体操作步骤如下：

步骤一，获取多源异构非结构化数据信息，对其进行统一的预处理：首先使用Apache Tika(Apache提出的一种文档解析、提取工具)将所有异构的文档转换成统一结构形式的文档，然后对处理后的文档集按照标点符号循环分成字符串集，同时判断是否存在标记符，有标记符的除去标记符，以<key，value>(键值对)的形式存储在HDFS(HadoopDistributed File System，Hadoop分布式文件系统，Hadoop是一个由Apache基金会所开发的分布式系统基础架构)中，其中key(键)为文档编号，value(值)为文档内容；

步骤二，对文档数据进行分词、计算特征值权重、关键词二进制化：使用ICT-CLAS分词技术对文档内容进行分词处理，同时按照停止词词典除去停用词，提取其中的关键词使文档离散化，将文档转化为一组特征值；

步骤三，采用改进特征权重计算方案计算特征值权重，并对于每篇文档的关键词进行二进制化处理；其中改进的特征权重计算方式如下：

W＝0.5×TF-IDF+0.5×γ(w_ni+Len(w_i)) (1)

在公式(1)中，TF-IDF的值由上文中的如下公式计算得到：

在公式(2)中，TFx表示关键词x在文档中出现的词频，TFmax表示某个关键词在特定文档中出现的最大词频；Kn表示某个位置的关键系数，其中，n为1或者2，K₁表示标题的关键系数，K₂表示文档内容的关键系数；

在公式(1)中，γ为参数，取值与文档长度有关，Len(w_i)定义如下：

步骤四，改进的Simhash指纹值计算：通过上一步的hash生成结果，按照特征值的权重形成加权字符串，进而通过二进制化得到改进的Simhash指纹值；

步骤五，海明距离计算：对计算得到的Simhash指纹值使用带索引功能的海明距离来检测文档之间的相似程度。

所述步骤二中对文档数据进行分词、计算特征值权重、关键词二进制化，具体为：采取Hadoop分布式文件系统HDFS，与Map/Reduce结合，数据访问的吞吐量更高，HDFS的应用程序对文件使用“一次写入，多次读取”模式；Hadoop下采用Map/Reduce的方式对改进Simhash算法进行实现，将算法分布在多个节点上进行存储，实现高度并行化；Map函数的输入是以键值对形式存储在HDFS中的<key,value>，其中key表示文档编号(唯一标识一篇文档)，value表示文档内容(包含标题和正文)，Map函数主要有以下三项工作：

(1)分词：使用ICT-CLAS分词技术对文档内容进行分词处理，同时按照停止词词典除去停用词，以提高指纹的精度，提取其中的关键词；

(2)计算关键词权重：采用改进特征权重计算方案计算每个关键词相对于每篇文档的特征值权重；

(3)关键词的二进制化：对于每篇文档的关键词进行二进制化处理，其中，关键词的二进制长度与关键词长度有关；

最终Map函数的输出是<关键词二进制化，关键词权重>形式，其中关键词与关键词权重都是以每篇工序文档为单位进行输出。

所述步骤三中改进的Simhash指纹值计算，具体为：

其中Reduce函数的输入是Map函数输出的以每篇工序文档为单位的<关键词二进制化，关键词权重>，Reduce函数的主要工作如下：

(1)二进制加权：将关键词二进制化后的值进行加权，将特征值权重与二进制对应的每一位相乘，字符串中的“0”视为“-1”；

(2)累计合并求解：将每个关键词中相同位置的加权值累计求和，得到最终的Simhash值；

(3)降维二进制化：通过约定，若累计合并的值中，大于0的位设定为1，小于等于0的位设定为0；

Reduce最终函数的输出为<文档编号，Simhash指纹值>，最终将输出结果保存在HDFS中。

本发明与现有技术相比较，具有如下显而易见的突出实质性特质和显著技术进步：

本发明方法克服了传统的文本相似性计算方法中准确度不够、计算效率不高的问题。使在机械研制搜索系统中为用户推荐语义内容相似文档时，能够实现大规模文档中快速、精确的相似性计算。

附图说明

图1为本发明方法的整体流程图。

图2为基于大数据技术的文档相关度计算流程图。

图3为基于MapReduce改进Simhash算法流程图。

具体实施方式

下面结合附图和优选实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

针对文档特征权值的计算，在引用TF-IDF技术的基础上，同时还考虑了关键词的词性与词长。

针对传统TF-IDF算法计算精度不足的问题，根据非结构化文档的结构特点，可以知道文档的标题就能概括整篇文档的主旨，这就说明在标题中出现的关键词要比在文档内容中现的关键词更为重要，本说明中引入了一个关键系数的概念对TF-IDF算法公式进行改进，改进的策略如下：

对于这个关键系数，假设特定文档T由K₁，K₂两部分构成，其中K₁是标题的关键系数，K₂是内容的关键系数，显然标题中如果出现关键词，则这个词的重要性不言而喻，故赋予K₁较大的值。这样就能根据文档中关键词的位置来判断这个关键词的重要性了，本文根据经验数据确定其权值分配，改进后的TF-IDF算法公式如下：

其中，TFx表示关键词x在文档中出现的词频，TFmax表示某个关键词在特定文档中出现的最大词频。K_n表示某个位置的关键系数(n为1或者2)，K₁表示标题的关键系数，K₂表示文档内容的关键系数。

在词性方面，本发明细分了关键词的词性。比如一篇文章是由多个句子构成的，句子里最重要的部分是主语和谓语，主语是一个句子的中心，它可以是执行句子的行为或动作的主体；谓语是用来表示主语的动作或主语所处的状态；形容词用来修饰名词或代词。因此，不难发现，主语是一句话的主要表征，主语后面的词都是对主语的补充说明。普遍情况下，一个句子中名词作为主语的概率最高，动词作为谓语的概率最高，因此可以将句子中关键词的词性作为衡量其在句中代表性的判断依据。例如对于“按工程图纸进行检验”使用分析技术进行分词后有“按”、“工程图纸”、“进行”、“检验”，它们出现的频率分别是；1，1，1，但是显然这句话的核心应该是“工程图纸”，它必须给予更大的权重来表示出这句话的特征。因此，在计算权重时加入词性权重的考虑可以提高Simhash指纹值计算的准确性。结合应用场景，并运用专家意见法，即德尔菲法得出权重系数如下表所示。

在词长方面，根据对2008年度CSSCI(Chinese Social Sciences CitationIndex，中文社会科学引文索引)关键词库中的关键词长进行的统计，发现由4-6个字所组成的词能成为关键词的概率较高，因此应该给四个字及以上的词更高的权重。另外规定在计算关键词整体权重时，同时将关键词词频改为计算TF-IDF值，TF-IDF值对应的权重w₁＝0.5，词性与词长对应的权重w₂＝0.5，设词性对应的权重为w_ni，词长对应的权重为Len(w_i)，那么关键词权重的计算公式就变成：

W＝0.5×TF-IDF+0.5×γ(w_ni+Len(w_i)) (1)

其中，TF-IDF的值由上文中的公式(2)计算得到，γ为参数，取值与文档长度有关，Len(w_i)定义如下：

如图1所示，为Simhash算法整体流程图，本发明主要针对特征值的计算加入了一些优化步骤，对应步骤如下：

1)对多源异构的文档进行统一的预处理，将其中的标记符与干扰符去除；

2)针对预处理后的文档采用ICTALAS分词系统进行分词处理，并标注词性，统计词长；

3)根据ICTALAS的停用词库对上一步得到的词元进行停用词过滤，将一些助词、虚词等对文档特征表示无贡献的词去掉，提高文档特征表示精度，进而得到关键词集合。

经过以上3步就可以根据文档内容得到离散化后的文档特征，为计算改进的文档Simhash值提供依据。

针对现有机械研制系统中存在的海量非结构化文档数据，本发明利用现有的大数据技术，将改进的Simhash相似度计算方法采用分布式计算模型Map/Reduce进行计算，通过分割数据实现并行计算，以提高计算速度，并采用HDFS将计算得到的指纹值进行分布式存储，整体流程图如图2所示。

其中，文档预处理、特征权值计算、Simhash指纹计算等改进的Simhash相似度计算方法流程按照上文中提出的方法采用分布式计算模型Map/Reduce进行计算。此外，由于海量文档集的文本数量众多且大小相对较小，同时为了提高海量文档Simhash指纹值的检索效率，本发明采用大数据存储技术，将原始文档和Simhash指纹值均存储在分布式文件系统HDFS中，构建海量分布式Simhash指纹库。

如图3所示为基于MapReduce改进Simhash算法流程图。其中在数据输入阶段对文档内容进行预处理、分片；在MapReduce阶段主要对文档内容进行分词，并按照上文介绍的方法计算每个关键词相对于每篇文档的文本特征权值；在Shuffle阶段主要是采用hash算法将每个关键词转化为二进制hash值，再进行加权、合并与降维；在Reduce阶段主要是将每篇文档所对应的关键词合并起来，计算出每篇文档的Simhash指纹值；输出阶段主要是以key/value的形式输出每篇文档的Simhash值。

实施例(以机械研制领域中的装配大纲数据为例)。

一种海量非结构化文本的相似性计算方法，包括以下步骤：

步骤一：数据预处理

本实施例使用的数据主要来源于某制造公司数据仓库中的非结构化装配大纲数据。首先使用Tika将所有异构的文档转换成统一结构形式的文档，然后循环对处理后的文档集按照标点符号分成字符串集，同时判断是否存在标记符，有标记符的除去标记符，以<key,value>的形式存储在HDFS中，其中key为文档编号，唯一标识一篇文档，value为文档内容，由装配大纲标题与装配大纲内容共同构成，文档内容中第一行对应装配大纲标题，第一行以下内容对应装配大纲内容。处理后的文档如下表所示，其中Doc-01与Doc-02分别对应着文档编号，下面以其中的两篇文档的部分内容为例进行介绍。

步骤二：文档分词、特征值权重计算、关键词二进制化

本发明采取Hadoop分布式文件系统HDFS，与Map/Reduce结合，数据访问的吞吐量更高，HDSF的应用程序对文件使用“一次写入，多次读取”模式。Hadoop下采用Map/Reduce的方式对改进Simhash算法进行实现，将算法分布在多个节点上进行存储，实现高度并行化。Map函数的输入是以键值对形式存储在HDFS中的<key，value>，其中key表示文档编号，value表示文档内容，Map函数主要有以下三项工作：

(1)分词

使用ICT-CLAS分词技术对文档内容进行分词处理，同时按照停止词词典除去停用词，如冠词、助词、语气词等,提取其中的关键词。

(2)计算关键词权重

利用公式(2)计算每个关键词相对于每篇文档的特征值权重，分词及计算关键词权重两步对应结果如下表所示。

(3)关键词的二进制化。对于每篇文档的关键词采用哈希函数进行二进制化处理，下面以文档编号为Doc-01的文档进行处理，如下表所示。

最终Map函数的输出是<关键词二进制化，关键词权重>形式，其中关键词与关键词权重都是以每篇文档为单位进行输出，即<100110，0.31222>。

步骤三：Simhash指纹值计算

其中Reduce函数的输入是Map函数输出的以每篇文档为单位的<关键词二进制化，关键词权重>，Reduce函数的主要工作如下：

(1)二进制加权。将关键词二进制化后的值进行加权。将特征值权重与二进制对应的每一位相乘，字符串中的“0”视为“-1”，如下表所示。

(2)累计合并求解。将每个关键词中相同位置的加权值累计求和，最终得到最终的Simhash值“1.09044-0.15675-0.80433-0.33015 1.65771-1.14863”。

(3)降维二进制化。通过约定，若累计合并的值中，大于0的位设定为1，小于等于0的位设定为0，因此最终文档的Simhash指纹值为“100010”。

Reduce最终函数的输出为<文档编号，Simhash指纹值>，即<Doc-01，100010>。同理可计算出文档编号为Doc-02的Simhash指纹值为011001，即为<Doc-02，011001>，最终将输出结果保存在HDFS中。

步骤四：海明距离计算。

针对两篇Simhash值需要通过海明距离(Hamming Distance)计算两者相似度，对于“011001”与“011001”的海明距离，是将二者异或之后得到的二进制字符串中“1”的个数，因文档Doc-01与文档Doc-02的二者海明距离为5，即两篇文档的相似度为5。

Claims

1.一种海量非结构化文本的相似性计算方法，其特征在于，具体操作步骤如下：

步骤一，获取多源异构非结构化数据信息，对其进行统一的预处理：首先使用Tika将所有异构的文档转换成统一结构形式的文档，然后对处理后的文档集按照标点符号循环分成字符串集，同时判断是否存在标记符，有标记符的除去标记符，以<key，value>的形式存储在HDFS中，其中key为文档编号，value为文档内容；

W＝0.5×TF-IDF+0.5×γ(w_ni+Len(w_i)) (1)

在公式(1)中，TF-IDF的值由上文中的如下公式计算得到：

2.根据权利要求1所述的海量非结构化文本的相似性计算方法，其特征在于，所述步骤二中对文档数据进行分词、计算特征值权重、关键词二进制化，具体为：采取Hadoop分布式文件系统HDFS，与Map/Reduce结合，数据访问的吞吐量更高，HDFS的应用程序对文件使用“一次写入，多次读取”模式；Hadoop下采用Map/Reduce的方式对改进Simhash算法进行实现，将算法分布在多个节点上进行存储，实现高度并行化；Map函数的输入是以键值对形式存储在HDFS中的<key,value>，其中key表示文档编号，value表示文档内容，Map函数主要有以下三项工作：

3.根据权利要求1所述的海量非结构化文本的相似性计算方法，其特征在于，所述步骤三中改进的Simhash指纹值计算，具体为：