CN103761225B

CN103761225B - 一种数据驱动的中文词语义相似度计算方法

Info

Publication number: CN103761225B
Application number: CN201410033339.1A
Authority: CN
Inventors: 冯伟; 聂学成; 杨昂; 党建武
Original assignee: Tianjin University
Current assignee: BEIJING HONGBO ZHIWEI SCIENCE & TECHNOLOGY Co.,Ltd.
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2017-03-29
Anticipated expiration: 2034-01-23
Also published as: CN103761225A

Abstract

本发明公开了一种数据驱动的中文词语义相似度计算方法，包括以下步骤：文本故事集合的初始化；建立相关性关系图模型；通过tf‑idf可分性值对所述相关性关系图模型进行修剪；将修剪后的相关性关系图模型作为Simrank算法输入，通过Simrank的迭代计算词语对之间的语义相似度；以所述语义相似度为核心定义柔性语义相似度度量模型；基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。本方法能更好的区分出属于同一主题的词语和不属于同一主题的词语，同时还能度量词字与其组成的词语之间的语义相似度。在标准数据集上的实验显示，相对于现有方法，新闻故事协同分割的结果的F1‑measure绝对值增长了11%。

Description

一种数据驱动的中文词语义相似度计算方法

技术领域

本发明涉及计算机与媒体计算领域，特别涉及一种数据驱动的中文词语义相似度计算方法。

背景技术

故事协同分割旨在多个文本之间提取出属于同一主题的故事，在实践中，故事协同分割对于高层次的语义总结和行为分析等是一个很重要的预处理操作。

在特定的条件下，诸如：已知主题模型和预先主题标定的情况下，主题检测与跟踪方法（TDT）^[1]能够被用于故事协同分割。相比之下，Feng et al.于2012年提出了一个基于概率图模型的^[2]，更加通用和无监督的方法用以自动地检测语义相似的文本故事对。此方法纯粹以数据为导向并且全部依赖于主题间和主题内的语义相似性的依赖与约束。因此，如何正确地度量语义相似度得以极大程度地影响故事分割的准确性。根据“词袋”模型，词语出现的频率分布可以用来表示词语流的语义，也就是说，两个相同的词语间的相似度为1，否则为0。此方式有助于简化模型，但是，将词与词之间潜在的相似性关系考虑进来将会更有意义。

度量词语的语义相似度在自然语言处理（NLP）领域中是一个很重要的课题，同时也是其他多种应用的重要基础，例如，2002年Pantel and Lin提出的词义排歧^[3]；1998年Lin提出了一种信息论定义的词语相似性^[4][5]，此相似性度量是语料库为本的并来源于一系列的关于相似性的假设。对于英文来说，2004年Pedersen et al.提出的WordNet::Similarity^[6]是一种能够度量任意两个英文单词间相似度的度量方法，它基于预先主题标定的语料库，根据单词的含义，将名词、动词、副词和形容词编组入一个继承关系的层次结构，达到对单词分类和关联的目的。2008年Kolb提出了一个DISCO方法^[7]，用以检索多种语言之间给定任意两个词的语义相似度。但是WordNet::Similarity和DISCO都不能处理中文的语义相似度。同时，此类基于先验知识的语义相似度度量方法不如只依赖语料数据驱动的方法受欢迎，因为后者能够产生更相关的度量来更好的产生协同分割结果。

发明内容

本发明提供了一种数据驱动的中文词语义相似度计算方法，本发明实现了对中文的语义相似度的处理，且取得了较高的相似度精度，详见下文描述：

一种数据驱动的中文词语义相似度计算方法，所述方法包括以下步骤：

（1）文本故事集合的初始化；

（2）建立相关性关系图模型；

（3）通过tf-idf可分性值对所述相关性关系图模型进行修剪；

（4）将修剪后的相关性关系图模型作为Simrank算法输入，通过Simrank的迭代计算词语对之间的语义相似度；

（5）以所述语义相似度为核心定义柔性语义相似度度量模型；

（6）基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割。

所述文本故事集合的初始化的步骤具体为：

1）输入带有故事边界和故事主题标定的文本集合每个主题由m个故事组成，表示第i个主题的第j个故事，n为主题的数量；

2）提取出文本集合C中所有出现的词，去掉重复组成有顺序的词语集合V_word，提取文本集合C中所有的字组成字集合V_char，词语集合V_word与字集合V_char取并集生成词典V；

3）以词语集合V_word中的元素为向量的基，对文本集合C中的每个故事建立词频向量模型。

所述词频向量模型的步骤具体为：

将不同长度不同内容的故事表现为维度相同的词频向量，词频向量的每个元素表示词语集合V_word中的词语在故事中出现的频率。

所述建立相关性关系图模型的步骤具体为：

1）建立词对上下文连接图模型：

2）建立词语局部连接图模型；

3）通过所述词对上下文连接图模型和所述词语局部连接图模型建立相关性关系图模型；

所述相关性关系图模型具体为：G=<V,E,W>

节点集合V=V_word∪V_char，边集合E=E_C∪E_P，边权重集合W=W_C∪W_P，其中，E_C为词对上下文连接图的边集合；E_P为词语局部连接图的边集合；W_C为词对上下文连接图的边权重集合；W_P为词语局部连接图的边权重集合。

所述通过tf-idf可分性值对所述相关性关系图模型进行修剪的步骤具体为：

其中，

tf-idf表示词频-逆向文件频率，tf-idf^a表示词语w_a对于文本集中所有主题计算出的tf-idf值的集合，以mean{tf-idf^a}为阈值，对集合tf-idf^a中大于阈值的数值再求一次平均即得到词语w_a的可分性值Disc(w_a)，通过对可分性值低于设定阈值d的词语节点以及与该节点连接的边进行清除，同时将清除词语后产生的孤立的汉字节点也进行清除。

所述将修剪后的相关性关系图模型作为Simrank算法输入，通过Simrank的迭代计算词语对之间的语义相似度的步骤具体为：

获取语义相似度矩阵为

其中，M_ca为加强后的语义相似度矩阵，M'_ca(i,j)表示词语集合V_word中第i个词和第j个词之间的语义相似度；Disc(w_i)和Disc(w_j)用于表示可分性值。

所述以所述语义相似度为核心定义柔性语义相似度度量模型的步骤具体为：

其中，F_x为文本s_x的词频向量模型，F_y为文本s_y的词频向量模型，T为转置，Sim(s_x,s_y|M_ca)表示文本故事s_x和s_y之间的柔性语义相似度。

本发明提供的技术方案的有益效果是：本方法基于文本集中的故事边界和故事的主题标定的相关信息，相对于预先的主题标定，定位文本集的故事边界更加容易。本方法综合考虑了数据集中任意词与词之间、字与字之间的语义相似度，提供了一种低监督的只基于数据集文本的中文语义相似度度量方法。与现有语义相似度度量方式比较，本方法能更好的区分出属于同一主题的词语和不属于同一主题的词语，同时还能度量词字与其组成的词语之间的语义相似度。在句子级别方面，通过本方法定义的平均主题内语义相似度和平均主题间语义相似度之比与现有方法相比有明显提高。采用同样的中文新闻文本分割方法的情况下，基于本语义相似度度量方法的中文新闻文本分割结果的精度F1-measure比现有方法提高了11%。

附图说明

图1为数据驱动的中文词语义相似度计算方法的流程图；

图2为相关性关系图模型的示意图；

图3为四种语义相似度量方法的文本协同分割结果的F1-measure对比图；

图4为针对2个数据集的四种语义相似度量方法的随机参数表现对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本方法作进一步详细描述。在利用本方法建立的柔性语义相似度进行的中文新闻文本协同分割的实例中，使用柔性语义相似度度量替代现有的基于欧式距离的硬性语义相似度，并适用于现有的中文新闻文本协同分割框架之中。实验表明，本方法提出的柔性语义相似度对于主题内和主题间的词语有更好的区分性，结合现有的中文新闻文本协同分割框架算法，能更准确和合理地将文档对中属于同一主题的故事分割出来。

101：文本故事集合的初始化；

其中，步骤101具体如下：

1）输入文本故事集：输入带有故事边界和故事主题标定的文本集合该文本集合由n个主题构成，每个主题由m个故事组成，表示第i个主题的第j个故事。

2）提取词典：提取出该文本集合C中所有出现的词，去掉重复组成有顺序的词语集合V_word，词语的排列顺序符合第一次出现的先后顺序。提取该文本集合中所有的字组成字集合V_char，词语集合与字集合取并集生成词典V。

3）生成词频向量模型：以词语集合V_word中的元素为向量的基，对于文本集合C中的每个故事建立词频向量模型，即将不同长度不同内容的故事表现为维度相同的词频向量，向量的每个元素表示词语集合V_word中该位置的词语在该故事中出现的频率。

102：相关性关系图模型（Correlated Affinity Graph，CAG）的建立；

基于“词袋”模型，主题相关的词语更倾向于同时出现在同一个故事里，即上下文连接；此外，组成中文词语的单个汉字往往也有其自己的意思，于是，含有相同汉字的不同词语也更有可能语义相关。基于此，建立的相关性关系图模型实际上由两个子图组成：词对上下文连接图模型和词语局部连接图模型。

1）词对上下文连接图模型的建立：

在词对上下文连接图中，节点为词语集合V_word中所有的词语。对于词语集合V_word中任意词对w_a和w_b，当且仅当w_a和w_b同时间出现在同一故事S中，且w_a和w_b之间的距离小于某一个阈值τ时（τ的通常取值为5），认为词语对w_a和w_b为上下文连接，并在该词对节点之间建立一条边。基于此标准便能建立无权值的词对上下文连接图^[8][9]。

注意到，词语对(w_a,w_b)在数据集的同一个故事S中的上下文连接次数可能不止一次，于是对于文本集合该集合含有个主题T，每个主题包含m个故事S，定义此文本集合中任意词语对w_a和w_b的连接相似度W_C'(a,b)为：

其中，表示词语w_a在故事i中出现的频率，表示词语w_b在故事i中出现的频率，C_ab表示词对(w_a,w_b)同时出现在同一个主题下同一个故事中的频率，即上文所说的上下文连接次数，而freq_max=max_(i,j){freq(i,j)}表示任意故事之间任意词语对被连接次数的最大值，也就是计算值的最大值。ε>0是一个常量用来保证0≤W_C'(a,b)<1。然后将W_C'(a,b)作为连接词语对(w_a,w_b)的边的权值。

考虑到词语对(w_a,w_b)在同一主题T_x不同故事里（S_i或S_j）同时存在对词语对(w_a,w_b)间语义相似度的正面影响，在W_C'(a,b)基础上添加项：

(w_a∈S_i∈T_x,w_b∈S_j∈T_x,i≠j)

添加的项为词语对(w_a,w_b)在同一主题不同故事中（S_i或S_j）出现的频率乘积之和。

考虑到词语对(w_a,w_b)在不同主题（T_x或T_y）不同故事里（S_i或S_j）的同时存在对词对(w_a,w_b)间语义相似度的负面影响，在W_C'(a,b)+add_C(a,b)的基础上减少项：

(w_a∈S_i∈T_x,w_b∈S_j∈T_y,x≠y)

至此，词语上下文连接图模型中，连接词对节点(w_a,w_b)之间的边的权值W_C，即词对(w_a,w_b)的上下文连接相似度为：

W_C(a,b)=W_C'(a,b)+add_C(a,b)-sub_C(a,b)。

2）词语局部连接图模型的建立：

在词语局部连接图模型中，节点为词语集合V_word与字集合V_char的并集中所有的元素，当某一个字c_z出现在词语w_a中时，便在该字节点和该词语节点之间建立边。至此，连接字c_z和词语w_a的边的权值W_P为该词语的局部连接相似度，表示为：

其中，表示字c_z在词语w_a中出现的次数，l_a表示词语w_a的长度。

3）相关性关系图模型（CAG）的建立：

通过对词对上下文连接图和词语局部连接图做并集，即两个图中节点作并集，连接节点的边也做并集，得到的图模型便是相关性关系图模型G=<V,E,W>如图2所示，节点集合V=V_word∪V_char，边集合E=E_C∪E_P，边权重集合W=W_C∪W_P。其中，E_C为词对上下文连接图的边集合；E_P为词语局部连接图的边集合；W_C为词对上下文连接图的边权重集合；W_P为词语局部连接图的边权重集合。

在相关性关系图模型中，词语与词语之间可以直接通过上下文连接相关联，也可通过包含的共同的汉字来间接的相关联。

103：通过tf-idf可分性值^[10]对相关性关系图模型进行修剪；

其中，步骤103具体如下：

对于相关性关系图模型中每一个词语节点w_a，用tf-idf（词频-逆向文件频率）值计算方法计算其在该文本数据集中的可分性值：

其中

tf-idf^a表示词语w_a对于文本集中所有主题计算出的tf-idf值的集合。然后以mean{tf-idf^a}为阈值，对集合tf-idf^a中大于阈值的数值再求一次平均即得到词语w_a的可分性值Disc(w_a)。至此得以计算出V_word中每个词语的可分性值，通过对可分性值低于设定阈值d的词语节点以及与该节点连接的边进行清除，同时将清除词语后产生的孤立的汉字节点也进行清除，得以对相关性关系图模型进行精简处理，保留更具有主题代表性的词语节点。同时，词语的可分性值得分也将用于后续步骤为Simrank迭代计算中完善和增强相关性关系图模型的效果。

104：将修剪后的相关性关系图模型（CAG）作为Simrank算法输入，通过Simrank的迭代计算词语对之间的语义相似度；

其中，步骤104具体如下：

将修剪后的相关性关系图模型作为Simrank算法^[11]的输入，利用Simrank算法对相似度的传播，计算相关性关系图中任意节点之间的语义相似度。通过Simrank计算得到的语义相似度矩阵为。同时，使用词语的可分性值来对得到的语义相似度矩阵进行完善和加强：

其中，M_ca为加强后的语义相似度矩阵。M'_ca(i,j)表示词语集合V_word中第i个词和第j个词之间的语义相似度；Disc(w_i)和Disc(w_j)也用于表示可分性值。

105：以语义相似度为核心定义柔性语义相似度度量模型；

其中，步骤105具体如下：

文本s_x和文本s_y之间的语义相似度，决定于该文本对之间的所有词语对组合的语义相似度之和。以语义相似度矩阵为核心，建立柔性语义相似度度量模型^[12]：

其中，F_x为文本s_x的词频向量模型，F_y为文本s_y的词频向量模型，T为转置，Sim(s_x,s_y|M_ca)表示文本故事s_x和s_y之间的柔性语义相似度。基于此语义相似度度量的文本协同分割相比于现有方法将会有更准确和合理的结果。

至此，根据以上步骤，从输入带主题标定和故事边界的文本数据集开始，经过数据初始化，相关性关系图模型建立，图模型修剪，到Simrank语义相似度计算，一直到柔性语义相似度度量的建立。本方法建立了低监督的基于文本数据集导向的中文文本语义相似度的度量方法。

106：基于柔性语义相似度度量模型对中文新闻文本进行协同分割。

1）中文新闻故事协同分割算法框架；

现有的新闻故事协同分割算法框架的核心基于马尔可夫随机场模型，提出一种四步迭代的方法来解决新闻故事协同分割问题。算法的第一步是对前景和背景标识的初始化，这是通过对词汇进行聚类然后从中选出相似的簇来完成的；第二步使用当前的标定结果对前景和背景模型进行更新；第三步将新闻故事协同分割的问题形式化为能量方程最小化问题；最后通过混合优化的方法来完成对前景和背景标定的修正。具体技术方法和细节请参考^[12]。将本方法提出的柔性语义相似度度量模型代入现有算法框架中替换现有算法框架使用的硬性语义相似度度量（欧式距离度量）方法，以提高语义相似度度量的准确度。

2）计算得到的基于柔性语义相似度的中文协同分割结果与协同分割查找目标的相似性。

本实施例中，在TDT2数据集中进行实验，检测结果的准确率定义为：

其中，

X_correct表示分割结果中正确的结点集合，X表示新闻故事协同分割产生前景的所有句子的标识集合，X_groundtruth表示真解。使用F1-measure对分割结果进行评价，F1-measure得分越高表示分割结果越好，反之，越差。

下面以具体的试验来验证本方法提供的一种数据驱动的中文词语义相似度计算方法可行性，详见下文描述：

图3给出了四种相似度量方法：1）由词语上下文连接图和词局部连接图组成的相关性关系图；2）仅由词语上下文连接图构成的相关性关系图；3）仅由词语局部连接图构成的相关性关系图；4）现有的算法框架中（Feng提出的）硬性语义相似度。

基于上述四种语义相似度度量方法，在TDT2数据集上进行中文新闻故事协同分割，对比F1-measure值的平均值结果，可以看出词语上下文连接图和局部连接图都对词语的相似度度量有提高效果，相关性关系图模型在现有硬性相似度基础上提高了11%（即（0.6364-0.5729）/0.5729）。

图4为针对2个数据集（TDT2ref和TDT2reg），在 20对随机参数的设置下，基于四种语义相似度度量方法的文本协同分割的准确率对比，可以看出参数即使随机设置，相关性关系图模型的表现都优于现有的硬性语义相似度模型，验证了本方法的可行性。

综上所述，为了获得任意只带有故事边界的文本语料集中的任意中文词语间的语义相似度，本方法首先根据文本语料集中任意词语对在同一故事中共同出现的频率，以及该词语对的上下文的连接关系建立任意词语对上下文连接图；与此同时建立词语对上下文连接相似度模型，为词语对上下文连接图中的边赋予权值。然后，根据语料集中每个词语和组成该词语的单个汉字之间的“整体-部分”的连接关系建立词语局部连接图；同时建立词语局部连接相似度模型，为词语局部连接图中的边赋予权值。之后将此前建立的两个图做并集，建立相关性关系图模型。然后根据该图模型中每个节点词的差异值（TF-IDF值），对图模型中差异值低于平均差异值的节点进行修剪。然后将得到的相关性关系图模型作为Simrank算法的输入，输出为该图所有节点对之间的语义相似度矩阵。最后，凭借得到的语义相似度矩阵，得以度量此语料集中任意词语对间的语义相似度，此结果可以应用到自然语言处理的多个任务当中，如文本分割与协同分割、文本相似度计算等。此结果加上现有的中文新闻文本协同分割框架，得以对中文新闻文本进行更准确的协同分割，以用于更高级别的自然语言处理任务，如：主题跟踪，文本内容分析等。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献：

[1] J. Allan, J. Carbonell, G. Doddington, J. Yamron, and Y. Yang.1998. Topic detection and tracking pilot study: Final report. The DARPABroadcast News Transcription and Understanding Workshop, pages 194–218.

[2] W. Feng, X. Nie, L. Wan, L. Xie, and J. Jiang. 2012. Lexicalstory co-segmentation of Chinese broadcast news. In INTERSPEECH.

[3] P. Pantel and D. Lin. 2002. Discovering word senses from text. InSIGKDD.

[4] D. Lin. 1998a. Automatic retrieval and clustering of similarwords. In ACL.

[5] D. Lin. 1998b. An information-theoretic definition of similarity.In ICML.

[6] T. Pedersen, S. Patwardhan, and J. Michelizzi. 2004. Wordnet::similarity - measuring the relatedness of concepts. In AAAI.

[7] P. Kolb. 2008. Disco: A multilingual database of distributionallysimilarwords. In KONVENS.

[8] G. Ambwani and A. R. Davis. 2010. Contextuallymediated semanticsimilarity graphs for topic segmentation. In ACL.

[9] X. Nie, W. Feng, L.Wan, and L. Xie. 2013. Measuring semanticsimilarity by contextual word connections in Chinese news story segmentation.In ICASSP.

[10] G. Salton, C. Buckley et al. Term Weighting Approaches inAutomatic Text Retrieval.Technical Report. Cornell University, Ithaca, NY,USA, 1987.

[11] G. Jeh and J. Widom. 2002. SimRank: A measure of structural-context similarity. In SIGKDD.

[12] K. W. Church and P. Hanks. 1990. Word association norms, mutualinformation, and lexicography. Computational Linguistics, 16(1):22–29.

Claims

1.一种数据驱动的中文词语义相似度计算方法，其特征在于，所述方法包括以下步骤：

(1)文本故事集合的初始化；

(2)建立相关性关系图模型；

(3)通过tf-idf可分性值对所述相关性关系图模型进行修剪；

(4)将修剪后的相关性关系图模型作为Simrank算法输入，通过Simrank的迭代计算词语对之间的语义相似度；

(5)以所述语义相似度为核心定义柔性语义相似度度量模型；

(6)基于所述柔性语义相似度度量模型对中文新闻文本进行协同分割；

其中，所述文本故事集合的初始化的步骤具体为：

1)输入带有故事边界和故事主题标定的文本集合每个主题由m个故事组成，表示第i个主题的第j个故事，n为主题的数量；

2)提取出文本集合C中所有出现的词，去掉重复组成有顺序的词语集合V_word，提取文本集合C中所有的字组成字集合V_char，词语集合V_word与字集合V_char取并集生成词典V；

3)以词语集合V_word中的元素为向量的基，对文本集合C中的每个故事建立词频向量模型；

其中，所述建立相关性关系图模型的步骤具体为：

1)建立词对上下文连接图模型；

2)建立词语局部连接图模型；

3)通过所述词对上下文连接图模型和所述词语局部连接图模型建立相关性关系图模型；

所述相关性关系图模型具体为：G＝＜V,E,W＞

V＝V_wordUV_char，边集合E＝E_C UE_P，边权重集合W＝W_C UW_P，其中，E_C为词对上下文连接图的边集合；E_P为词语局部连接图的边集合；W_C为词对上下文连接图的边权重集合；W_P为词语局部连接图的边权重集合；

其中，所述通过tf-idf可分性值对所述相关性关系图模型进行修剪的步骤具体为：

D i s c (w_{a}) = m e a n {t f - {idf}_{l a y e r}^{a}}

其中，

t f - {idf}_{l a y e r}^{a} = {t f - i d f : t f - {idf}_{i}^{a} > m e a n {t f - {idf}^{a}}, i = 1, .., n}

tf-idf表示词频-逆向文件频率，tf-idf^a表示词语w_a对于文本集中所有主题计算出的tf-idf值的集合，其中tf-idf_i ^a表示集合tf-idf^a中的第i个数值，以mean{tf-idf^a}为阈值，对集合tf-idf^a中大于阈值的数值再求一次平均即得到词语w_a的可分性值Disc(w_a)，对可分性值低于设定阈值d的词语节点、以及与该节点连接的边进行清除，同时将清除词语后产生的孤立的汉字节点也进行清除；

获取语义相似度矩阵为

M_{c a} = {D i s c (w_{i}) {M^{'}}_{c a} (i, j) D i s c (w_{j})}_{i, j &Element; | V_{w o r d} |};

其中，M_ca为加强后的语义相似度矩阵，M'_ca(i,j)表示词语集合V_word中第i个词和第j个词之间的语义相似度；Disc(w_i)和Disc(w_j)用于表示可分性值；

S i m (s_{x}, s_{y} | M_{c a}) = \frac{F_{x}^{T} M_{c a} F_{y}}{\sqrt{F_{x}^{T} M_{c a} F_{x}} \sqrt{F_{y}^{T} M_{c a} F_{y}}}

2.根据权利要求1所述的一种数据驱动的中文词语义相似度计算方法，其特征在于，所述建立词频向量模型的步骤具体为：