CN109522547A

CN109522547A - 基于模式学习的中文同义词迭代抽取方法

Info

Publication number: CN109522547A
Application number: CN201811245894.5A
Authority: CN
Inventors: 鲁伟明; 俞家乐; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-26
Anticipated expiration: 2038-10-23
Also published as: CN109522547B

Abstract

本发明公开了一种基于模式学习的中文同义词迭代抽取方法：以百科词条的非结构化数据作为语料库，利用重定向获得的种子同义词对与语料文本进行匹配，获得词对间的文本作为候选模式；通过候选模式匹配，抽取出文本语句中模式前后的实体对作为候选同义词对；利用word2vec计算实体对间的语义相似度，评估词对相近程度；统计候选模式支持的种子数，并通过其抽取的词对质量计算候选模式的评分；接着利用模式评分、实体置信度、词对相似度对候选同义词进行评分，筛选出有效同义词实体对；利用抽取的高质量同义词作为新种子不断迭代，获得更多中文同义词对。本发明提出的方法成功从千万百科词条文本中抽取出了大量精确度较高的中文同义词实体，对于利用海量非结构化文本提取同义信息具有较大的应用意义。

Description

基于模式学习的中文同义词迭代抽取方法

技术领域

本发明涉及基于模式学习的中文同义词迭代抽取方法，特别是涉及一种开放式同义词迭代抽取方法。

背景技术

同义词是指一组具有相同或几乎相同含义、表达同一概念的词语或词组。同义关系作为一种典型的语义关系，有利于更好地理解丰富多变的语言文字、挖掘出文本中的重要信息。同义关系作为信息处理领域的一种基础资源，在信息检索、自然语言处理、文本挖掘、知识图谱构建等方面都具有广泛的应用。随着信息时代的到来，数据的海量增长导致了同义词的迅速增加，人工抽取将耗费大量的时间和人力。因此，设计实现一个自动同义词抽取系统将会极大地促进同义信息的获取。

目前，国内外研究人员已经针对英文同义关系做出了大量研究，提出了包括基于模式匹配、分布相似度、统计学等多种方法。中文同义词作为中文语料的基础资源，也遵循着类似的规则。国内现已获得许多中文同义词资源，如《同义词词林》、《同义词词林扩展版》、中文WordNet等。然而无论是这些资源，还是从词典、网页重定向、搜索引擎提取出的同义词库，其所包含的同义信息都是有限的，更多同义词存在于非结构化文本中，亟待挖掘。

本发明设计并实现了一个基于模式学习的中文同义词迭代抽取方法。该方法以百度百科词条的非结构化文本作为语料库，通过对同义模式的学习和种子词对的扩充，致力于抽取出尽可能多的中文同义词实体对。

发明内容

本发明为了解决海量非结构化文本中同义信息难以获取的问题，提出了一种基于模式学习的中文同义词迭代抽取方法，能够有效抽取出大量精确度较高的中文同义词实体。

本发明解决其技术问题采用的技术方案如下：一种基于模式学习的中文同义词迭代抽取方法，包括以下步骤：

1)语料预处理：对爬取的百度百科网页进行解析，获得词条正文文本；经过词条去冗和标点归一化后，将语料信息存储到Lucene索引文件中；从百度百科重定向链接中获取同义词对；对百度百科实体进行分词，统计词性规则并排序，选取排序靠前且包含了80％实体的词性规则构建实体词性规则库，每条词性规则的频率为该词性规则涵盖的实体数；

2)模式学习：从百度百科重定向获取的同义词对中随机选取若干种子词对，以每个种子词对作为查询关键词，从Lucene索引中检索出包含该种子词对的语句；对检索出的语句进行分词，抽取出种子词对间的文本作为候选模式，并过滤候选模式中的噪声；对过滤后的所有候选模式进行聚类，统计支持每个模式组的种子词对数，保留其中支持数超过设定阈值的模式组作为候选模式组；对每个候选模式进行模式扩展，即统计语料文本中候选模式前后出现的高频且非专有名词的词语，作为该候选模式的无效词；

3)同义词抽取：用步骤2)中获得的候选模式组的每个候选模式作为查询关键词，从Lucene索引中检索出包含该候选模式的语句，过滤其中不满足长度要求的语句，并通过计算句子间的Jaccard相似度进行去冗；对过滤后的候选语句进行分词，找到候选模式在候选语句中的位置，对候选模式前后相邻的词语进行判断，若为该候选模式的无效词，则删除该候选语句；反之，用步骤1)中构建的实体词性规则库中的每条词性规则进行匹配，抽取出候选模式前后的实体对作为候选同义词对；每个候选语句可能匹配若干条词性规则、获得若干个候选实体，保留所有候选实体，并计算每个候选实体对应词性规则的频率与所有匹配的词性规则频率之和的比重，作为该候选实体在该候选语句中的实体权重；同时采用短语优化、并列短语的实体优化方法抽取候选实体，优化方法获得的候选实体权重为1；

4)模式评分：用步骤3)中获得的候选同义词对，对步骤2)中获得的候选模式组进行评估；考虑每个候选模式组抽取出的所有候选同义词对的支持信息，计算候选同义词对间语义相似度，相似度大于阈值则作为正例，小于阈值则作为负例；在正负例基础上，同时考虑三种权重：a)基础权重w_b：用以区分种子同义词和其他候选同义词对的可靠性，种子同义词的基础权重设为1，候选同义词对的基础权重设为0.5；b)实体权重w_e：实体在所有候选语句中的权重平均值；c)支持权重w_s：每个模式组的支持种子数及候选语句数与最大支持数的比重；结合正负例和权重，候选模式组的评分公式为：

其中，a、b为先验参数，用于缓解偶然出现的候选同义词对评分p的较大影响；∑_{s＝(i，j)∈P}(w_bs·w_ei·w_ej)和∑_{s＝(i，j)∈N}(w_bs·w_ei·w_ej)分别计算正、负例权重，P、N为正、负例集，s为候选同义词对，i、j为候选同义词对中的两个实体，w_ei、w_ei为两个实体在候选语句中的实体权重，w_bs为候选同义词对在候选语句中的基础权重；权重范围都为(0，1]；

根据评分p对候选模式组进行排序，设置模式评分阈值为0.5以过滤低分候选模式组；

5)同义词评分：利用步骤4)计算得到的模式评分对步骤3)抽取的候选同义词对进行评分；统计支持每个候选同义词对的模式组及对应频数，所述支持模式组为抽取出该候选同义词对的候选模式组，同时结合候选同义词对的实体权重计算候选同义词对的评分s，评分公式为：

其中，p_n为第n个支持模式，n_n为p_n的频数，i_n为缓解同一支持模式多次作用的衰减系数，w_e1、w_e2分别为候选同义词对中两个实体的实体平均权重，即候选实体在所有候选语句中实体权重的平均值；

根据评分s对候选同义词对进行排序，高于同义词评分阈值的候选同义词对则为抽取的正确同义词；

6)迭代计算：利用步骤5)中获得的未曾作为种子的正确同义词对作为新种子，重复迭代步骤2)至步骤5)，直至达到设定的最大迭代次数。

进一步地，所述的步骤1)中，标点归一化指将语料文本中错误的英文标点统一为中文标点。

进一步地，所述的步骤2)中，对语句分词进行优化，具体为：

a)利用标点进行匹配，分别将书名号、方括号以及顿号间的短语标记为一个整体；

b)将词性组合为“形容词+名词”的短语标注为一个实体。

进一步地，所述的步骤2)中，过滤候选模式中的噪声包括以下方式：

a)过滤模式距离大于阈值的候选模式，所述模式距离为经过分词的候选语句中，种子同义词对之间的词数，模式距离阈值设置为5；

b)通过正则表达式匹配过滤包含阿拉伯数字、英文字母的候选模式；

c)过滤包含专有名词的候选模式，专有名词包括人名、地名、组织名；

d)过滤只包含标点的候选模式。

进一步地，所述的步骤2)中，对候选模式进行聚类，具体为：通过计算所有候选模式的Jaccard相似度进行聚类，将相似候选模式归为一组，从而提高正确候选模式组的支持频数。

进一步地，所述的步骤3)中，实体优化方法包括：

a)短语优化：书名号、方括号中的短语当作一个整体；模式中包含引号时，考虑引号内短语为一个整体；

b)并列短语：满足由顿号或并列连词(或/和/及)间隔，由“等”、“等等”或标点结尾规则的并列短语，作为候选实体。

进一步地，所述的步骤4)中，候选同义词对间语义相似度是指，通过word2vec将两个实体分别转化为词向量，词向量的余弦相似度即为词对相似度，相似度公式为：

其中，A和B分别为两个实体的词向量，n为词向量维数400。

本发明方法与现有技术相比具有的有益效果：

1.该方法提出了一种应用于大规模语料的中文同义词抽取模型，该模型无需耗费较大的人工工作量即能从海量无结构数据中自动抽取出精确度较高的同义词对，具有极大的应用意义；

2.该方法在模式学习基础上，综合考虑了语义相似度、模式聚类、分词优化、词性匹配等方法，有效提高了抽取准确性。

附图说明

图1是本发明的总体流程图；

图2是从种子同义词库中随机选择5000对同义词作为种子，进行三轮迭代抽取后top 20个模式-评分结果；

图3是图2实验的top 20个同义词-评分结果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供的一种基于模式学习的中文同义词迭代抽取方法，包括以下步骤：

1)语料预处理：对爬取的百度百科网页进行解析，获得词条正文文本；经过词条去冗和标点归一化后，将语料信息存储到Lucene索引文件中；从百度百科重定向链接中获取同义词对；对百度百科实体进行分词，统计词性规则并按照频率进行排序，选取排序靠前且包含了80％实体的词性规则构建实体词性规则库，每条词性规则的频率为该词性规则涵盖的实体数；

2)模式学习：从百度百科重定向获取的同义词对中随机选取若干种子词对，选取的种子词对越多，抽取的同义模式越多，避免计算量过大，种子数可以设定为5000；以每个种子词对作为查询关键词，从Lucene索引中检索出包含该种子词对的语句；对检索出的语句进行分词，抽取出种子词对间的文本作为候选模式，并过滤候选模式中的噪声；对过滤后的所有候选模式进行聚类，统计支持每个模式组的种子词对数，保留其中支持数超过设定阈值的模式组作为候选模式组；对每个候选模式进行模式扩展，即统计语料文本中候选模式前后出现的高频且非专有名词的词语，作为该候选模式的无效词；

3)同义词抽取：用步骤2)中获得的候选模式组的每个候选模式作为查询关键词，从Lucene索引中检索出包含该候选模式的语句，过滤其中不满足长度要求(过长或过短)的语句，并通过计算句子间的Jaccard相似度进行去冗；对过滤后的候选语句进行分词，找到候选模式在候选语句中的位置，对候选模式前后相邻的词语进行判断，若为该候选模式的无效词，则删除该候选语句；反之，用步骤1)中构建的实体词性规则库中的每条词性规则进行匹配，抽取出候选模式前后的实体对作为候选同义词对；每个候选语句可能匹配若干条词性规则、获得若干个候选实体，保留所有候选实体，并计算每个候选实体对应词性规则的频率与所有匹配的词性规则频率之和的比重，作为该候选实体在该候选语句中的实体权重；同时采用短语优化、并列短语的实体优化方法抽取候选实体，优化方法获得的候选实体权重为1；

4)模式评分：用步骤3)中获得的候选同义词对，对步骤2)中获得的候选模式组进行评估；考虑每个候选模式组抽取出的所有候选同义词对的支持信息，计算候选同义词对间语义相似度，相似度大于阈值则作为正例，小于阈值则作为负例；在正负例基础上，同时考虑三种权重：a)基础权重w_b：用以区分种子同义词和其他候选同义词对的可靠性，种子同义词的基础权重设为1，候选同义词对的基础权重设为0.5；b)实体权重w_e：实体在所有候选语句中的权重平均值，一个候选语句可能抽取出多对候选实体，为了平衡每个语句的权重，需考虑候选实体在该语句中的实体权重，即模式的正负例需同时乘上基础权重和实体权重；c)支持权重w_s：每个模式组的支持种子数及候选语句数与最大支持数的比重；结合正负例和权重，候选模式组的评分公式为：

其中，a、b为先验参数，用于缓解偶然出现的候选同义词对评分p的较大影响，a、b均可以设置为100；∑_{s＝(i，j)∈P}(w_bs·w_ei·w_ej)和∑_{s＝(i，j)∈N}(w_bs·w_ei·w_ej)分别计算正、负例权重，P、N为正、负例集，s为候选同义词对，i、j为候选同义词对中的两个实体，w_ei、w_ei为两个实体在候选语句中的实体权重，w_bs为候选同义词对在候选语句中的基础权重；权重范围都为(0，1]；

根据评分s对候选同义词对进行排序，高于同义词评分阈值的候选同义词对则为抽取的正确同义词，如设置评分阈值为0.5；

同义词对评分公式结合了支持模式及频数，并假定多组高分模式的支持强于一组高分模式的多次支持，通过同一模式每次支持作用的减弱，对词对进行有效评估；其中实体权重的引入可以降低错误实体的评分，适当减弱噪声；

6)迭代计算：利用步骤5)中获得的正确同义词对作为新种子，重复迭代步骤2)至步骤5)，直至达到设定的最大迭代次数；

每一轮候选模式和候选同义词对都会被保留，并在新一轮计算时更新评分；随着候选模式组中成员不断增加，候选模式组的正负例权重会趋于准确；而原先仅由少数候选模式支持的正确同义词对，随着迭代次数的增加，也会获得更多候选模式支持，从而提升评分和排名；

每一轮迭代可以选取排名前1000且未曾作为种子的正确同义词对作为新种子，当迭代次数达到设定值比如3时，或迭代计算中不再抽取出新的同义词对时，停止迭代。

b)将词性组合为“形容词+名词”的短语标注为一个实体。

进一步地，所述的步骤2)中，过滤候选模式噪声中采用的过滤规则是通过观察统计后自定义的方法，包括以下方式：

a)过滤模式距离大于阈值的候选模式，所述模式距离为经过分词的候选语句中，种子同义词对之间的词数；根据统计，1到5的模式距离涵盖了大部分有效同义模式，即模式距离阈值可以设置为5；

d)过滤只包含标点的候选模式。

进一步地，所述的步骤2)中，模式聚类指通过计算所有候选模式的Jaccard相似度进行聚类，将相似模式归为一组，从而提高正确模式组的支持频数；支持数阈值可以设定为5，能较有效过滤部分噪声。

进一步地，所述的步骤2)中，对每个候选模式进行模式扩展是因为同义模式间可能存在包含关系，当包含长模式的语句匹配短模式时会导致抽取错误；假定候选模式与其无效词能构成同义模式，过滤满足该条件的候选语句能有效过滤噪声；如设置无效词的高频频数为5。

进一步地，所述的步骤3)中，获取的候选语句过短或过长是由网页解析和断句错误导致，属于噪声文本；有效语句长度可以设置为10～120个字。

进一步地，所述的步骤3)，通过计算句子间的Jaccard相似度进行去冗，计算公式为：

其中A和B是分别组成两个句子的词集合，交集为两个句子共有的词，并集为两个句子总共所有的词。

进一步地，所述的步骤3)中，实体优化方法包括：

其中，A和B分别为两个实体的词向量，n为词向量维数400。

实施例

下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

(1)如图1所示，为百科文本建立Lucene索引，并从种子同义词库中随机选取5000对同义词作为种子；利用种子词对在语料库中进行检索，抽取出每个词对间的文本作为候选模式；对候选模式进行聚类，每个候选模式组由其模式原型表示，统计候选模式组的频数，保留其中频数大于5的候选模式组；

(2)如图1所示，匹配候选模式，抽取每个候选语句中模式前后的实体对作为候选同义词对；

(3)如图1所示，利用word2vec计算词对间的语义相似度作为候选模式的正负例，计算模式置信度评分，评分高于0.5则判定为正确模式，过滤评分低于0.5的噪声模式；接着统计支持候选词对的所有模式，利用其置信度和频数计算候选词对的评分；

(4)如图1所示，根据评分进行排序，评分高于0.5则判定为正确同义词对，选择排名前1000的正确同义词对作为种子进行新一轮抽取，一共进行三轮迭代；

(5)如表1所示，对每轮迭代判定为正确的模式进行标记，并计算精确率；

表1：图2实验的三轮模式评估结果

迭代次数	正例数	负例数	精确率
				第一轮	14	0	1.0000
第二轮	30	2	0.9375
				第三轮	38	3	0.9268

(6)如表2所示，对每轮迭代的top 1000个同义词对进行评估，选取每100个同义词对的最后10对进行标记，并计算精确率。

表2：图2实验的三轮同义词评估结果

迭代次数	词对总数	正例数	负例数	精确率
					第一轮	886	77	13	0.8556
第二轮	1000	85	15	0.8500
					第三轮	1000	80	20	0.8000

本实例的运行结果在附图2-3、附表1-2中展示。图2为第三轮迭代的top 20个模式-评分结果，以excel的形式呈现，每一行代表一组模式，包括了模式组的原型、该组的所有模式及最终评分；图3为第三轮迭代的top 20个同义词-评分结果，以excel形式输出，每一行代表一对同义词信息，具体包括了同义词对、词对评分及支持该词对的所有模式组原型；表1为三轮迭代的模式评估，模式精确率较高，而随着迭代次数增加，抽取模式的精确率在不断下降；表2为三轮迭代的同义词评估，词对抽取的精确率大约保持为0.8左右，相对较高。

Claims

1.一种基于模式学习的中文同义词迭代抽取方法，其特征在于，包括以下步骤：

其中，a、b为先验参数，用于缓解偶然出现的候选同义词对评分p的较大影响；∑_{s＝(i,j)∈P}(w_bs·w_ei·w_ej)和∑_{s＝(i,j)∈N}(w_bs·w_ei·w_ej)分别计算正、负例权重，P、N分别为正、负例集，s为候选同义词对，i、j为候选同义词对中的两个实体，w_ei、w_ej分别为两个实体在候选语句中的实体权重，w_bs为候选同义词对在候选语句中的基础权重；权重范围均为(0,1]；

2.根据权利要求1所述的基于模式学习的中文同义词迭代抽取方法，其特征在于，所述的步骤1)中，标点归一化指将语料文本中错误的英文标点统一为中文标点。

3.根据权利要求1所述的基于模式学习的中文同义词迭代抽取方法，其特征在于，所述的步骤2)中，对语句分词进行优化，具体为：

a)利用标点进行匹配，分别将书名号、方括号及顿号间的短语标记为一个整体；

b)将词性组合为“形容词+名词”的短语标注为一个实体。

4.根据权利要求1所述的基于模式学习的中文同义词迭代抽取方法，其特征在于，所述的步骤2)中，过滤候选模式中的噪声包括以下方式：

d)过滤只包含标点的候选模式。

5.根据权利要求1所述的基于模式学习的中文同义词迭代抽取方法，其特征在于，所述的步骤2)中，对候选模式进行聚类，具体为：通过计算所有候选模式的Jaccard相似度进行聚类，将相似候选模式归为一组，从而提高正确候选模式组的支持频数。

6.根据权利要求1所述的基于模式学习的中文同义词迭代抽取方法，其特征在于，所述的步骤3)中，实体优化方法包括：

7.根据权利要求1所述的基于模式学习的中文同义词迭代抽取方法，其特征在于，所述的步骤4)中，候选同义词对间语义相似度是指，通过word2vec将两个实体分别转化为词向量，词向量的余弦相似度即为词对相似度，相似度公式为：

其中，A和B分别为两个实体的词向量，n为词向量维数。