CN107102983B

CN107102983B - 一种基于网络知识源的中文概念的词向量表示方法

Info

Publication number: CN107102983B
Application number: CN201710259663.9A
Authority: CN
Inventors: 刘磊; 常晓飞; 孙孟涛; 贾亚璐
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2020-12-04
Anticipated expiration: 2037-04-20
Also published as: CN107102983A

Abstract

本发明公开一种基于网络知识源的中文概念的词向量表示方法，首先对获取的百科知识源进行预处理得到知识源G，其次根据G构建语义特征词典；最后，根据语义特征词典构建概念的词向量表示。采用本发明的技术方案，有效降低了一词多义和同义词问题对概念相似性度量的影响。

Description

一种基于网络知识源的中文概念的词向量表示方法

技术领域

本发明属于文本信息处理领域，具体是涉及一种基于网络知识源的中文概念的词向量表示方法。

背景技术

相似性是衡量对象之间相似程度的指标，相似性数值越大，相似程度越高，反之相似程度就越低。相似性计算方法用于有效度量对象间的相似程度，发现对象之间的区别和联系。

概念本身并没有二义性，它能唯一地、准确地指向现实世界中的实体或对象。但在文本中，概念是由词表示的，这里称为概念词。概念词的相似性计算是自然语言处理的关键技术之一。传统的概念词相似度量方法大多是基于具有层次关系组织的语义词典和基于语料库的方法。概念词相似性度量在自然语言处理、信息检索、文本重复检测、文本聚类、文本分类、问答系统和机器翻译等领域都有着广泛的应用。

概念语义通常使用词向量表示，词向量中的词称之为特征词，但是特征词的一词多义和同义词问题会影响概念相似度的度量。也就是说一些特征词在不同的语境下表达不同的含义，即一词多义；有些特征词与其它特征词具有相同的含义，即同义词。必须考虑特征词语义特点，针对传统方法的缺陷，给出一些新的方法，以降低一词多义问题和同义词问题对相似性度量的影响。

发明内容

本发明的目的在于针对概念相似度计算中的词向量的一词多义和同义词问题，提供一种基于网络知识源的中文概念的词向量表示方法，降低一词多义和同义词问题对概念相似性度量的影响。

为实现上述目的，本发明采用如下的技术方案：

一种基于网络知识源的中文概念的词向量表示方法包括以下步骤：

步骤(1)知识源获取和预处理

其包括：下载百科知识源，对知识源进行必要的预处理，包括繁体简体转换、分词、词性标注，网络百科知识源中每个概念对应一个文本页面。预处理后的知识源记作G＝{(c₁,d₁),(c₂,d₂),…,(c_n,d_n)}，其中c_i表示一个概念，d_i表示概念c_i对应的预处理后的文本。

步骤(2)根据G构建语义特征词典

构建语义特征词典步骤如下：

步骤(2.1)抽取G所有文本中包含词性的词，去除其中的英文、数字、特殊符号、停用词，只保留大于等于2个汉字特征词，得到候选特征词词典F₁。

步骤(2.2)对F₁中的每个特征词计算其在文本集合中的逆文本频率，即IDF(Inverse document frequency)值，它是用于衡量特征词权重的指数，公式如下：

其中，N为文本总数，n为包含该特征词的文本数。

步骤(2.3)从F₁中选取满足条件：n>α、IDF>β的特征词构成候选特征词词典F₂，α，β为设定的阈值。

步骤(2.4)对F₂中的所有特征词按词性分组，求各组词性特征词的IDF均值，公式如下：

对F₂中特征词进行词性过滤，只保留IDF_mean>γ的词性特征词构成特征词词典F₃，γ为设定的阈值，记作F₃＝{w₁,w₂,w₃,…,w_n}中每个词由词和词性两部分组成，例如w₁＝透过/v，w₂＝中国/n，这里v表示动词，n表示名词。

步骤(2.5)利用有词性标记的同义词词典，将F₃中词性和词义相同的特征词合并，以减少同义词对词向量的语义度量影响；这样特征词典变为FW＝{Syn(w₁),Syn(w₂),…,Syn(w_k)}，其中Syn(w_i)为与特征词w_i同义的词的集合。

步骤(3)构建概念的词向量表示

知识源G中每个概念的词向量用对应文本中出现的特征词构造，为体现特征词与概念的相关程度，其词向量的每一维为特征词的权重，权重因素包括：TFIDF(TermFrequency Inverted Document Frequency)值和词频对数似然比。

TFIDF用于体现特征词在整个知识源中对概念的重要性，计算公式如下：

TFIDF_w,c＝WF_w,d×IDF_w

其中，WF_w,d是特征词w在概念c对应文本d中出现的次数，(c,d)∈G；IDF_w是w在IDF值；TFIDF_w,c是w对于(c,d)的TFIDF值，

词频对数似然比用于体现特征词在文本中对概念的重要性，假设与概念语义相关的特征词，其在概念对应文本中出现频率要比在整个语料库中要高，计算公式如下：

其中，PD_w为特征词w在知识源G中出现的频率,PD_w,d是w在d中出现的频率,(c,d)∈G，

已知(c,d)∈G，特征词典FW＝{Syn(w₁),Syn(w₂),…,Syn(w_k)}，则网络百科知识源G中每个概念的词向量按照如下步骤构造：

步骤(3.1)、计算特征词w_i在(c,d)中的特征权重值UW(w_i,c)，公式如下：

步骤(3.2)、计算特征词的同义词集合在(c,d)中的特征权重值UW(Syn(w_i),c)，通过计算同义词集合中每个同义词的权重值之和得到，公式如下：

UW(Syn(w_i),c)＝UW(w_i1,c)+UW(w_i2,c)+…+UW(w_in,c)

步骤(3.3)计算概念c的特征词向量CVec(c)，向量的每一维都是一个同义词集合的特征权重值，表示形式如下：

CVec(c)＝(UW(Syn(w₁),c),UW(Syn(w₂),c),...,UW(Syn(w_k),c))。

附图说明

图1本发明实现基于网络知识源的中文概念词向量表示方法和概念相似性度量的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

根据图1所示，本发明提出的方法是依次按以下步骤实现的(以中文维基百科为例)：

步骤(1)知识源获取和预处理

语料的获得及相关处理步骤如下：

步骤(1.1)从中文维基百科网站(https：//dumps.wikimedia.org/zhwiki/20160111/)下载中文版维基百科的XML格式数据(zhwiki-20160111-page-articles.xml.bz2)，并用进行文件解压得到中文维基百科语料库G₁。

步骤(1.2)由于语料库G₁中包含大量繁体字，所以对其进行繁简转换，得到语料库G₂。

步骤(1.3)使用目前发展较为成熟的ICTCLAS分词系统对语料库G₂进行分词、词性标注，得到语料库G。G表示中文维基百科中的所有概念(条目)及其所对应的文本的集合，即G＝{(c₁,d₁),(c₂,d₂),…,(c_N,d_N)}，N为概念总数，每一个概念由一篇文本明确定义，即有N篇文本(约85万)。

步骤(2)根据G，构建语义特征词典

构建语义特征词典步骤如下：

步骤(2.1)抽取G所有文本中包含词性的词，如透过/v，中国/n；去除其中的英文、数字、特殊符号、停用词；只保留大于等于2个汉字特征词，得到候选特征词词典F₁。

其中，N为文本总数，n为包含该特征词的文本数。

步骤(2.3)对于只在一篇文本中出现过的特征词，忽略不计，因此选取满足条件：n>1、IDF>1的特征词构成特征词集合F₂。

其中，k为具有该词性的特征词个数。IDF_mean越小，n越大，即包含该特征词的文本数越大，说明该特征词能够很好代表中文维基百科语料库的文本的特征。根据IDF_mean值，只保留形容词、名词、成语、简称、习用语、处所词、时间词、状态词，这些特征词构成集合F₃。记作F₃＝{w₁,w₂,w₃,…,w_n}中每个词由词和词性两部分组成，例如w₁＝透过/v，w₂＝中国/n，这里v表示动词，n表示名词。

步骤(2.5)利用有词性标记的同义词词典，将F₃中词性和词义相同的特征词合并，以减少同义词对词向量的语义度量影响。这样特征词典变为FW＝{Syn(w₁),Syn(w₂),…,Syn(w_k)}，其中Syn(w_i)为与特征词w_i同义的词的集合。具体步骤如下：

步骤(2.5.1)使用ICTCLAS分词系统对中文信息处理中常用的《同义词词林》进行分词、词性标注。

步骤(2.5.2)对分词、词性标注后的《同义词词林》进行人工修正，理论上具有相同编码的特征词应该具有相同的词性。这样做的目的是在降维的同时考虑了特征词的词性，例如“回响”有名词和动词两种词性，当它为名词时，与“回声”、“回音”具有相同的编码；当它为动词时，没有同义词。也就是说，当文本中出现动词的“回响”时就不与“回声”、“回音”合并，只有当它为名词时才与“回声”、“回音”合并。原始《同义词词林》与改进后的《同义词词林》片段分别如表1、表2。

表1原始《同义词词林》片段

表2改进后的《同义词词林》片段

步骤(4)使用向量空间模型进行概念相似性度量。

概念相似性度量转化为文本相似性度量，建立向量空间模型，利用余弦相似度量方法计算概念两两之间的相似性，如公式(3)：

其中，c_i，c_j为两个概念，d_i，d_j分别为概念c_i，c_j对应的文本，利用向量空间模型，则d_i＝(w_i1,w_i2,…,w_im)，d_j＝(w_j1,w_j2,…,w_jm)，m为特征词个数，w_xy表示文本d_x中第y个特征词的权重。

步骤(5)分析实验结果。

中文维基百科的文本长短不一，一般情况下，较长的文本能对概念做出更明确的定义。因此，实验选取了来自中文维基百科中的较长的5万篇文本进行研究。

步骤(5.1)

在5万个概念中，计算每一个概念在无词性特征词典和有词性特征词典两种情况下的相似性，相似性越小，说明有词性特征词典对相似性计算有重要影响。选取相似性较小的前250个概念，在无词性特征词典和有词性特征词典两种情况下进行两两相似性度量，31125组，部分结果如表3。

表3无词性特征词典和有词性特征词典的概念相似性比较

通过分析表3中各组对应的特征词，得知导致相似性变化的原因是使用有词性词典时特征词发生的变化，如在概念“同意投票”中的特征词“选项”有名词和动词两种词性，使用有词性词典后只保留了名词词性，通过分析“同意投票”概念对应的文本语境，特征词“选项”只保留名词具有意义。这样就对特征词因为词性不同而产生的一词多义问题进行了修正。

步骤(5.2)

在使用有词性特征词典和有词性加同义词的特征词典两种情况下，分别得到5万个概念的特征向量维数，比较两种情况下的维数，维数变化较大的概念说明加入改进后的《同义词词林》作用较明显。选取维数变化较大的前300个概念，进行两种情况下的概念相似性度量，部分结果如表4。

表4使用有词性特征词典和有词性加同义词的特征词典的概念相似性比较

在表4中，第一组概念“中华人民共和国”和“汉族”在使用有词性特征词典的情况下，计算的相似性为0.4558，在同时使用有词性的特征词典和改进后的《同义词词林》时，计算的相似性为0.5625，两种情况下相似性改变了0.1068。可见，加入改进后的《同义词词林》影响了两个概念的相似性。分别对每个概念的特征词分析，例如概念“中华人民共和国”，它的部分特征词合并情况如表5。

表5加入改进后的《同义词词林》特征词合并情况

在表5中，一组同义词之间用“|”隔开，“(1)”代表该特征词只有一种含义。例如在使用有词性的特征词典，特征词“版画/n”、“壁画/n”、“年画/n”、“水彩画/n”、“水墨画/n”、“油画/n”同时出现在概念“中华人民共和国”中，频数分别为1、1、1、1、2、1，在此基础上加入改进后的《同义词词林》后，上述6个特征词合并为一个特征词“版画/n”，频数为7。因此，随着特征词维数降低，一定程度上降低了同义词对相似性度量的影响。

实验结果表明，本发明提出基于网络知识源的中文概念的词向量表示方法有效降低了一词多义和同义词问题对概念相似性度量的影响。

Claims

1.一种基于网络知识源的中文概念的词向量表示方法，其特征在于，包括以下步骤：

步骤(1)知识源获取和预处理

对获取的百科知识源进行预处理，网络百科知识源中每个概念对应一个文本页面，预处理后的知识源记作G＝{(c₁,d₁),(c₂,d₂),…,(c_n,d_n)}，其中，c_i表示一个概念，d_i表示概念c_i对应的预处理后的文本；

步骤(2)根据G构建语义特征词典，其包括以下步骤：

步骤(2.1)抽取G所有文本中包含词性的词，得到候选特征词词典F₁；

步骤(2.2)对F₁中的每个特征词计算其在文本集合中的逆文本频率，即IDF(Inversedocument frequency)值，它是用于衡量特征词权重的指数，公式如下：

其中，N为文本总数，n为包含该特征词的文本数；

步骤(2.3)从F₁中选取满足条件：n>α、IDF>β的特征词构成候选特征词词典F₂，α，β为设定的阈值；

其中，k为具有该词性的特征词个数，对F₂中特征词进行词性过滤，只保留IDF_mean>γ的词性特征词构成特征词词典F₃，γ为设定的阈值，记作F₃＝{w₁,w₂,w₃,…,w_n}，w₁,w₂,w₃,…,w_n为词性特征词，每个词性特征词由词和词性两部分组成；

步骤(2.5)利用有词性标记的同义词词典，将F₃中词性和词义相同的特征词合并，特征词典变为FW＝{Syn(w₁),Syn(w₂),…,Syn(w_k)}，其中，Syn(w_i)为与特征词w_i同义的词的集合；

步骤(3)构建概念的词向量表示

知识源G中每个概念的词向量用对应文本中出现的特征词构造，其词向量的每一维为特征词的权重，权重因素包括：TFIDF(Term Frequency Inverted Document Frequency)值

和词频对数似然比

设(c,d)∈G，特征词典FW＝{Syn(w₁),Syn(w₂),…,Syn(w_k)}，则网络百科知识源G中每个概念的词向量按照如下步骤构造：

其中，w_i为特征词，c为特征词w_i的概念；

UW(Syn(w_i),c)＝UW(w_i1,c)+UW(w_i2,c)+…+UW(w_in,c)

CVec(c)＝(UW(Syn(w₁),c),UW(Syn(w₂),c),...,UW(Syn(w_k),c))。

2.如权利要求1所述的基于网络知识源的中文概念的词向量表示方法，其特征在于，TFIDF用于体现特征词在整个知识源中对概念的重要性，计算公式如下:

TFIDF_w,c＝WF_w,d×IDF_w

其中，PD_w为特征词w在知识源G中出现的频率,PD_w,d是w在d中出现的频率,(c,d)∈G。