CN105912523B

CN105912523B - 一种词义标注方法和装置

Info

Publication number: CN105912523B
Application number: CN201610209475.0A
Authority: CN
Inventors: 熊德意; 张端风
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2019-07-19
Anticipated expiration: 2036-04-06
Also published as: CN105912523A

Abstract

本申请公开的词义标注方法和装置，首先将包含目标词语的单句组成伪文档，进而获取所述伪文档中目标词语的潜层词义，然后利用潜层词义标注语料中目标词语，再将潜层词义与词典词义建立映射关系，最后根据映射关系用词典词义替换潜层词义，实现自动构建词义语料库，减少了构建词义标注语料库的时间和成本。

Description

一种词义标注方法和装置

技术领域

本申请涉及数据处理领域，更具体地说，涉及一种词义标注方法和装置。

背景技术

词义标注语料库是指根据某个词典对单/多义词各个词义的定义，在文档的真实语料上根据目标词语上下文标注特定词义。词义标注语料库具有很重要的应用价值，在词义消歧、信息检索、机器翻译等领域都有广泛的应用。目前，大规模词义标注语料库建设采用人工方法进行，存在耗时、成本高等缺陷。

发明内容

有鉴于此，本申请提出一种语义标注方法和装置，欲实现自动构建词义标注语料库，减少词义标注语料库构建的时间和成本的目的。

为了实现上述目的，现提出的方案如下：

一种词义标注方法，包括：

从语料中获取包含目标词语的全部单句组成伪文档；

获取所述伪文档中目标词语的潜层词义；

对所述语料中目标词语标注潜层词义；

建立所述潜层词义与词典词义的映射关系；

根据所述映射关系，将所述语料中目标词语标注的所述潜层词义替换为所述词典词义。

优选的，所述从语料中获取包含目标词语的全部单句组成伪文档前，还包括：

对所述语料进行停止词、高频词和低频次过滤，以及词干化处理，获取所述目标词语。

优选的，所述获取所述伪文档中目标词语的潜层词义，包括：

对所述伪文档进行主题评估，获得所述目标词语对应的多个潜层词义，所述潜层词义包括序号和多个标注有概率的词语；

针对所述伪文档中的每个单句，从所述多个潜层词义中选取概率最高的潜层词义标注对应的单句中的所述目标词语。

优选的，所述建立所述潜层词义与词典词义的映射关系，包括：

分别建立所述潜层词义和词典词义对应的词义向量；

以词语为单位，利用向量间余弦值，分别计算每个所述潜层词义与全部词典词义的相似度；

将与所述潜层词义相似度最高的词典词义和所述潜层词义建立映射关系。

优选的，所述分别建立所述潜层词义和词典词义对应的词义向量，包括：

获取所述潜层词义的多个标注有概率的词语的词义向量，并以所述词语对应的概率为权重进行加权求和得到的向量，作为所述潜层词义的词义向量；

获取所述词典词义中简述、同义词集和例句中词语的词义向量，并将所述简述、同义词集和例句中词语的词义向量按照一定的权重比率加权求和得到向量，作为所述词典词义的词义向量。

一种词义标注装置，包括：

伪文档单元，用于从语料中获取包含目标词语的全部单句组成伪文档；

潜层词义单元，用于获取所述伪文档中目标词语的潜层词义；

潜层词义标注单元，用于对所述语料中目标词语的标注潜层词义；

建立映射单元，用于建立所述潜层词义与词典词义的映射关系；

词典词义标注单元，用于根据所述映射关系，将所述语料中目标词语标注的所述潜层词义替换为所述词典词义。

优选的，还包括：

语料处理单元，用于对所述语料进行停止词、高频词和低频次过滤，以及词干化处理，获取所述目标词语。

优选的，所述潜层词义单元，包括：

主题评估单元，用于对所述伪文档进行主题评估，获得目标词语对应的多个潜层词义，所述潜层词义包括序号和多个标注有概率的词语；

潜层词义标注子单元单元，用于从所述多个潜层词义中选取概率最高的潜层词义标注对应的单句中的所述目标词语。

优选的，所述建立映射单元，包括：

词义向量建立单元，用于分别建立所述潜层词义和词典词义对应的词义向量；

相似度计算单元，以词语为单位，用于向量间余弦值，分别计算每个所述潜层词义与全部词典词义的相似度；

建立映射子单元，用于将与所述潜层词义相似度最高的词典词义和所述潜层词义建立映射关系。

优选的，所述词义向量建立单元，包括：

潜层词义向量建立单元，用于获取所述潜层词义的多个标注有概率的词语的词义向量，并以所述词语对应的概率为权重进行加权求和得到的向量，作为所述潜层词义的词义向量；

词典词义向量建立单元，用于获取所述词典词义中简述、同义词集和例句中词语的词义向量，并将所述简述、同义词集和例句中词语的词义向量按照一定的权重比率加权求和得到向量，作为所述词典词义的词义向量。

从上述的技术方案可以看出，本申请公开的词义标注方法和装置，首先将包含目标词语的单句组成伪文档，获取所述伪文档中目标词语的潜层词义，然后利用潜层词义标注语料中目标词语，再将潜层词义与词典词义建立映射关系，最后根据映射关系用词典词义替换潜层词义，实现自动构建词义语料库，减少了构建词义标注语料库的时间和成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例公开的一种词义标注方法的流程图；

图2为本实施例公开的一种获取伪文档中目标词语的潜层词义方法的流程图；

图3为本实施例公开的一种建立潜层词义与词典词义的映射关系的方法的流程图；

图4为本实施例公开的一种词义标注装置的示意图；

图5为本实施例公开的一种潜层词义单元的示意图；

图6为本实施例公开的一种建立映射单元的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现对本申请设计的名词进行解释，以便于对本申请方案的理解：

停止词，stopword，在英文文档里面会遇到很多a，the，or等使用频率很多的词，常为冠词、介词、副词或连词等。如果搜索引擎要将这些词都索引的话，工作量巨大。在中文文档里面“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。

词干化处理，是指把一些名词的复数去掉，动词的不同时态去掉等类似的处理。

伪文档，是指通过对原始文档集合进行有指导地组织而形成的新的文档。

本申请公开的自动构建词义标注语料库的词义标注方法，首先将包含同一目标词语的单句组成伪文档，获取伪文档中目标词语的潜层词义，然后利用潜层词义标注语料中目标词语，再将潜层词义与词典词义建立映射关系，最后根据映射关系用词典词义替换潜层词义，实现自动构建词义语料库，减少了构建词义标注语料库的时间和成本。

本实施例公开的一种词义标注方法，参见图1示出词义标注的流程图，该方法包括：

步骤S11：从语料中获取包含目标词语的全部单句组成伪文档。

执行步骤S11对于每个目标词语，从语料中获取所有包含目标词语的单句，组成目标词语的伪文档，即每个目标词语对应一个伪文档。

对于目标词语的获取可以是预先人为设定的，也可以是通过对语料进行停止词、高频词和低频次的过滤，以及词干化处理，获得目标词语。英文文档中的a，the，or等停用词，以及与停止词类似的高频词和低频词的词义大都没有多种解释，因此没有进行词义标注的必要，所将停止词、高频词和低频词进行过滤。词干化处理，是指把一些名词的复数去掉，动词的不同时态去掉等类似的处理。对语料进行停止词、高频词和低频次的过滤，以及词干化处理后，得到的词语为要进行词义标注的目标词语。

步骤S12：获取所述伪文档中目标词语的潜层词义。

每个伪文档存在多个包含目标词语的单句，执行步骤S12利用主题模型工具HDP(Hierarchical Dirichlet process)，获得目标词语的潜层词义，对伪文档中所有的目标词语训练潜层词义。

步骤S13：对所述语料中目标词语标注潜层词义。

执行步骤S13根据伪文档中目标词语的标注信息，同步到语料中所有目标词语。

即执行步骤S11将语料中包含同一目标词语的所有单句组成了一个目标词语对应的伪文档，执行步骤S12中对伪文档进行主题模型训练，获取目标词语潜层词义并以单句为单位，对目标词语标注潜层词义，执行步骤S13将语料中包含目标词语的某个单句，与伪文档中包含目标词语的单句进行匹配，匹配成功后，利用伪文档中单句包含的目标词语的潜层词义，对语料中的单句包含的目标词语进行潜层词义标注。

步骤S14：建立所述潜层词义与词典词义的映射关系。

每个目标词语包含多个潜层词义，目标词语在词典中也有多个词义，执行步骤S14建立每个目标词语对应的多个潜层词义与其在词典中的词典词义的映射关系。

步骤S15：根据所述映射关系，将所述语料中目标词语标注的所述潜层词义替换为所述词典词义。

执行步骤S13将语料中的目标词语进行潜层词义标注，执行步骤S14建立建潜层词义和词典词义映射关系，执行步骤S15根据潜层词义和词典词义的映射关系，将语料中标注的潜层词义替换为词典词义标注。

本实施例公开的词义标注方法，首先将语料中包含目标词语的单句组成伪文档，进而获取伪文档中目标词语的潜层词义，然后利用潜层词义标注语料中的目标词语，再将潜层词义与词典词义建立映射关系，最后根据映射关系用词典词义替换潜层词义，实现自动构建词义语料库，减少了构建词义标注语料库的时间和成本。

本实施例公开了一种对伪文档中目标词语进行潜层词义标注方法，参见图2示出获取伪文档中目标词语潜层词义的流程，包括：

步骤S21：对所述伪文档进行主题评估，获得每个单句中所述目标词语对应的多个潜层词义，所述潜层词义包括序号和多个标注有概率的词语。

每个文档都有一个或几个写作目的，写作目的即文档主题，把包含同一目标词语的若干单句组成伪文档，获得伪文档的主题信息，该主题信息可以反映对应词语的词义信息，将伪文档的主题信息作为目标词语的潜层词义信息。

执行步骤S21，利用HDP工具对伪文档进行主题评估，获得每个单句包含目标词语对应的多个潜层词义，潜层词义包括序号和多个标注有概率的词语。例如，目标词语为“bank”，伪文档中单句“The bank is reassessing its crit eria for lending money”，单句中的bank对应多个潜层词义“@1:{(money,0.143),(lend,0.072),(robber,0.178),(profit,0.211),...}，@2:{(river,0.245),(land,0.029),(lake,0.183),(mile,0.231),...}，……”。

步骤S22：HDP工具在训练伪文档潜层词义的同时，为每个单句计算潜层词义概率分布。从多个潜层词义中选取概率最高的潜层词义标注对应的单句中的所述目标词语。

本实施例公开一种建立潜层词义与词典词义的映射关系的方法，参见图3示出建立潜层词义与词典词义的映射关系的流程图，包括：

步骤S31：分别建立潜层词义和词典词义对应的词义向量。

word2vec是一个将词语转换成向量形式的工具，计算出向量空间上的相似度，来表示词语语义上的相似度。执行步骤S31利用word2vec分别建立潜层词义的词义向量，以及词典词义的词义向量。

利用word2vec建立潜层词义的词义向量的具体方法，可以采用获取潜层词义的多个标注有概率的词语的词义向量，并以词语对应的概率为权重进行加权求和得到的向量，作为所述潜层词义的词义向量。

利用word2vec建立词典词义的词义向量的具体方法，可以采用获取词典词义中简述、同义词集和例句中词语的词义向量，并将简述、同义词集和例句中词语的词义向量按照一定的权重比率加权求和得到向量，作为所述词典词义的词义向量。例如将简述、同义词集和例句中词语的词义向量按照权重0.2:0.6:0.2的比率加权求和得到向量，作为所述词典词义的词义向量。其中简述和例句可以先进行停止词过滤。

步骤S32：以词语为单位，利用向量间余弦值，分别计算每个所述潜层词义与全部词典词义的相似度。

执行步骤S32以两个向量的余弦距离作为相似度，得到目标词语的每个潜层词义与目标词语在词典中所有词义的相似度。

步骤S33将与所述潜层词义相似度最高的词典词义和所述潜层词义建立映射关系。

执行步骤S32，选取相似度最大的词典词义与潜层词义建立映射关系。

为便于本实施例的理解，下表示出一个标注实例、

本实施例公开一种词义标注装置，参见图4，该词义标注装置包括：

伪文档单元11，用于从语料中获取包含目标词语的全部单句组成伪文档。

潜层词义单元12，用于获取所述伪文档中目标词语的潜层词义。

潜层词义标注单元13，用于对所述语料中目标词语进行潜层词义标注。

建立映射单元14，用于建立所述潜层词义与词典词义的映射关系。

词典词义标注单元15，用于根据所述映射关系，将所述语料中目标词语标注的所述潜层词义替换为所述词典词义。

本实施例公开的词义标注装置，伪文档单元将语料中包含目标词语的单句组成伪文档，潜层词义单元获取伪文档中目标词语的潜层词义，然后潜层词义标注单元利用潜层词义标注语料中目标词语，建立映射单元将潜层词义与词典词义建立映射关系，最后词典词义标注单元根据映射关系用词典词义替换潜层词义，实现自动构建词义语料库，减少了构建词义标注语料库的时间和成本。

本实施例公开的词义标注装置，还可以包括：语料处理单元，用于对所述语料进行停止词、高频词和低频次过滤，以及词干化处理，获取所述目标词语。

本实施例公开一种潜层词义单元，参见图5，该潜层词义单元包括：

主题评估单元121，用于对所述伪文档进行主题评估，获得每个单句中所述目标词语对应的多个潜层词义，所述潜层词义包括序号和多个标注有概率的词语；

潜层词义标注子单元122，用于从所述多个潜层词义中选取概率最高的潜层词义标注对应的单句中的所述目标词语。

本实施例公开一种建立映射单元，参见图6，包括：

词义向量建立单元141，用于分别建立所述潜层词义和词典词义对应的词义向量。词义向量建立单元包括潜层词义向量建立单元和词典词义向量建立单元。潜层词义向量建立单元用于获取潜层词义的多个标注有概率的词语的词义向量，并以词语对应的概率为权重进行加权求和得到的向量，作为潜层词义的词义向量。词典词义向量建立单元，用于获取所述词典词义中简述、同义词集和例句中词语的词义向量，并将所述简述、同义词集和例句中词语的词义向量按照一定的权重比率加权求和得到向量，作为所述词典词义的词义向量。

相似度计算单元142，用于以词语为单位，利用向量间余弦值，分别计算每个所述潜层词义与全部词典词义的相似度；

建立映射子单元143，用于将与所述潜层词义相似度最高的词典词义和所述潜层词义建立映射关系。

对于装置实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种词义标注方法，其特征在于，包括：

从语料中获取包含目标词语的全部单句组成伪文档；

获取所述伪文档中目标词语的潜层词义；

对所述语料中目标词语标注潜层词义；

建立所述潜层词义与词典词义的映射关系；

根据所述映射关系，将所述语料中目标词语标注的所述潜层词义替换为所述词典词义；

所述建立所述潜层词义与词典词义的映射关系，包括：

分别建立所述潜层词义和词典词义对应的词义向量；

将与所述潜层词义相似度最高的词典词义和所述潜层词义建立映射关系；

所述分别建立所述潜层词义和词典词义对应的词义向量，包括：

获取所述词典词义中简述、同义词集和例句中词语的词义向量，并将所述简述、同义词集和例句中词语的词义向量按照一定的权重比率加权求和得到向量，作为所述词典词义的词义向量；

在获取所述词典词义中简述、同义词集和例句中词语的词义向量前还包括对所述简述和所述例句进行停止词过滤。

2.根据权利要求1所述的方法，其特征在于，所述从语料中获取包含目标词语的全部单句组成伪文档前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述伪文档中目标词语的潜层词义，包括：

4.一种词义标注装置，其特征在于，包括：

词典词义标注单元，用于根据所述映射关系，将所述语料中目标词语标注的所述潜层词义替换为所述词典词义；

所述建立映射单元，包括：

相似度计算单元，用于以词语为单位，向量间余弦值，分别计算每个所述潜层词义与全部词典词义的相似度；

建立映射子单元，用于将与所述潜层词义相似度最高的词典词义和所述潜层词义建立映射关系；

所述词义向量建立单元，包括：

词典词义向量建立单元，用于获取所述词典词义中简述、同义词集和例句中词语的词义向量，并将所述简述、同义词集和例句中词语的词义向量按照一定的权重比率加权求和得到向量，作为所述词典词义的词义向量，在获取所述词典词义中简述、同义词集和例句中词语的词义向量前还包括对所述简述和所述例句进行停止词过滤。

5.根据权利要求4所述的装置，其特征在于，还包括：

6.根据权利要求4所述的装置，其特征在于，所述潜层词义单元，包括：

潜层词义标注子单元，用于从所述多个潜层词义中选取概率最高的潜层词义标注对应的单句中的所述目标词语。