CN104809176B

CN104809176B - 藏语实体关系抽取方法

Info

Publication number: CN104809176B
Application number: CN201510173998.XA
Authority: CN
Inventors: 孙媛
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2015-04-13
Filing date: 2015-04-13
Publication date: 2018-08-07
Anticipated expiration: 2035-04-13
Also published as: CN104809176A

Abstract

本发明涉及一种藏语实体关系抽取方法，该方法包括以下步骤：从藏汉文本语料信息中抽取训练语料；构建藏语词向量模型；通过藏语词向量模型获得实体关系特征向量；将实体关系特征向量作为输入，构建基于神经网络的实体关系分类模型，并对实体关系特征向量做多层的特征提取，最终获得藏语实体关系分类。本发明通过建立藏语词向量模型，研究和解决藏语实体关系的词汇语义特征和句子特征向量表示方法，进而通过建立藏语实体关系分类模型，实现藏语实体关系的抽取，提高了藏语实体关系分类的准确性，为藏语知识图谱、问答系统、信息抽取、信息检索等领域研究提供技术支撑和服务。

Description

藏语实体关系抽取方法

技术领域

本发明涉及一种藏语实体关系抽取方法，尤其涉及一种基于词向量的藏语实体关系抽取方法。

背景技术

随着互联网的快速普及，特别是发展中国家互联网用户的快速增加，网络上非英语文本资源数量急速增长，其增长速度远远超过了10年前的速度，并且越来越多的网上信息以多语言的形式发布。据中央民族大学国家语言资源监测与研究中心少数民族语言分中心调查：截止到2011年12月底，大陆少数民族语言文字的网站总量在1,250个左右，其中维吾尔文网站840个、藏文网站146个、蒙古文网站136个。“与全国网民增长速度相比，少数民族网民的增速较为突出，例如藏族网民增幅达86％，远远高于全国平均增长速度”。

Web内容的爆炸式增长，使得对Web的社会网络研究已经不再局限于对Web结构的分析，而是转向以Web内容为研究对象的分析，其中知识图谱(Knowledge Graph)成为大数据时代自然语言处理领域的一个研究热点。知识图谱以结点代表实体或者概念，边代表实体/概念之间的各种语义关系，其中实体关系的抽取是主要研究内容之一。知识图谱以全面、完整的知识体系为信息检索、问答系统、知识库构建等领域的研究提供了资源和支撑，而目前已有的Google(超过5.7亿实体，18亿关系)，DBpedia(超过1900万实体，1亿关系)，Wiki-links(4000万排除歧义的关系)，Wolframalpha(10万亿关系)，Probase(超过265万实体)，百度知心，搜狗知立方等知识图谱只提供英、汉、法等语言的相关知识，少数民族语言知识图谱的构建才刚刚起步。

例如，当我们搜索“(达赖喇嘛)”时，Google会出现64,100条结果；而当我们搜索“(嘉瓦仁波切)”时，Google会出现586,000条结果。在藏语中，通常称(达赖喇嘛)为(嘉瓦仁波切)，而目前的搜索引擎却没有显示两者之间的关系。而且，所有搜索结果以含有关键词的文本显示为主，没有知识的结构表示。因此，我们得不到全面准确的相关信息，更不能实现信息的深度挖掘。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种基于词向量的藏语实体关系抽取方法，通过建立藏语词向量模型，研究和解决藏语实体关系的词汇语义特征和句子特征向量表示方法，进而通过建立藏语实体关系分类模型，以实现藏语实体关系的抽取，提高了藏语实体关系分类的准确性。

为实现上述目的，本发明提供了一种藏语实体关系抽取方法，该方法包括：

从藏汉文本语料信息中抽取训练语料；

构建藏语词向量模型；

通过所述藏语词向量模型获得实体关系特征向量，所述实体关系特征向量包括藏语词汇语义特征向量和藏语句子特征向量；

将所述实体关系特征向量作为输入，根据所述训练语料构建基于神经网络的实体关系分类模型，并对所述实体关系特征向量做多层的特征提取，最终获得藏语实体关系分类。

进一步地，所述训练语料包括：藏语语义角色标注语料和基于自然标注的藏汉跨语言训练语料。

进一步地，所述基于自然标注的藏汉跨语言训练语料具体为：利用汉语结构化、半结构化的自然标注语料，通过跨语言环境下的藏汉实体及句子映射，将汉语句子的标注传递给藏语，得到所述基于自然标注的藏汉跨语言训练语料。

进一步地，所述构建藏语词向量模型具体为：通过对藏文网页文本进行分析，采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统，对所述藏文网页文本进行分词，作为所述藏语词向量模型的训练语料，构建所述藏语词向量模型。

进一步地，所述构建基于神经网络的实体关系分类模型，并对所述实体关系特征向量做多层的特征提取，最终获得实体关系分类具体为：以包含两个及以上所述命名实体的句子作为样本，采用向量空间模型计算特征的相似度；利用所述相似度信息，构建实体对近邻图，在所述近邻图上依据点之间的相似度进行传递；通过构建实体关系图，计算节点到节点之间的路径得分，最大化路径得分，实现所述藏语实体关系的抽取。

优选地，所述实现所述藏语实体关系的抽取还包括：利用半监督学习法，通过实体关系分类模型对未标注语料进行分类，将置信度较高的未标记语料选做标记样本，重复训练分类器，实现所述藏语实体关系的抽取。

本发明的藏语实体关系抽取方法利用基于自然标注的藏汉跨语言训练语料的获取，通过建立藏语词向量模型，研究和解决藏语实体关系的词汇语义特征和句子特征向量表示方法，进而通过建立藏语实体关系分类模型，实现藏语实体关系的抽取，提高了藏语实体关系分类的准确性，为藏语知识图谱、问答系统、信息抽取、信息检索等领域研究提供技术支撑和服务。

附图说明

图1为本发明的藏语实体关系抽取方法的流程图；

图2为本发明的实施例的基于自然标注的藏汉跨语言训练语料获取的示意图；

图3为本发明的实施例的藏语词向量模型示意图；

图4为本发明的实施例的藏语实体关系分类模型示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明通过藏语实体关系的词汇语义特征和句子特征向量表示，建立藏语实体关系分类模型，以实现藏语实体关系的抽取。

图1为本发明的藏语实体关系抽取方法的流程图，如图所示，该方法包括以下步骤：

步骤101，抽取训练语料。

具体地，从藏汉文本语料信息中抽取训练语料。

来源于国家语言资源监测与研究中心少数民族语言分中心的藏语语义角色标注的文本语料共5,000句，对该语料进行二次处理，对含有实体关系的句子进行提取，获得包含有实体及关系属性的语料。

利用汉语结构化、半结构化的自然标注语料，通过跨语言环境下的藏汉实体及句子映射，将汉语句子的标注传递给藏语，得到基于自然标注的藏汉跨语言训练语料。例如，在维基百科8,966条藏汉对应实体中，汉语存在信息框(infobox)的实体有3,587条，对应藏语解释的有3,062条。本实施例提取了含有infobox的3,062条藏汉实体及解释，图2为本发明的实施例的基于自然标注的藏汉跨语言训练语料获取的示意图，如图所示，将汉语实体属性进行回标，获取含有实体、属性的中文句子。通过实体映射，将汉语句子的标注传递给藏语，获得藏语含有“实体—属性—值”三元组关系的句子，获得本实施例的训练语料。

步骤102，构建藏语词向量模型。

具体地，通过对藏文网页文本进行分析，采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统，对所述藏文网页文本进行分词，作为所述藏语词向量模型的训练语料，构建所述藏语词向量模型。

本实施例对2011-2014年度包括青海藏语广播网、人民网藏文版、中国西藏新闻网、新华网西藏频道、中国共产党新闻网、中国西藏网、中国藏族网通7家访问量和影响力较大的藏文网站，共51,038个网页文本进行了分析，采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统，对文本进行分词，作为藏语词向量模型的训练语料，基于神经网络构建藏语词向量的模型。

图3为本发明的实施例的藏语词向量模型示意图，如图所示，输入层：包括词w前后的2n个词w₁,w₂,…,w_2n的词向量v(context(w₁))，v(context(w₂))，…，v(context(w_2n))∈Rm，m表示词向量的长度。本实施例中词向量长度选定100维。隐藏层：将输入层的2n个向量做求和累加，即其中v(context(w_i))为词w_i的词向量，x_w为词向量的和。输出层：输出层以语料中出现过的词作为叶子节点，以各词在语料中出现的次数为权值构造Huffman树。对于词典中的任意词w，Huffman树中必存在一条从根结点到词w对应节点的路径的唯一路径p^w。路径p^w上存在l^w-1个分支，将每个分支看作一次二分类，每一次分类就产生一个概率其中，θ为训练参数，x_w为词向量的和，将这些概率乘起来作为条件概率p(w|context(w))。目标函数：其中，θ为训练参数，x_w为词向量的和。采用随机梯度上升法使得目标函数最大化，从而最终训练获得藏语的词向量。

步骤103，获取藏语实体关系的词汇语义特征和句子特征向量表示。

具体地，通过藏语词向量模型获得实体关系特征向量，实体关系特征向量包括藏语词汇语义特征向量和藏语句子特征向量。

本实施例研究的实体关系包括：

人名：

①与人属性相关的命名实体关系抽取

人名—组织机构名所属关系

人名—人名同指关系(如别名、简称等)

②与人属性相关的其他信息识别

人名—国籍人名—民族人名—出生日期

人名—出生地人名—性别人名—职务(职业、职称)

③人物与人物之间的关系抽取

人名—人名亲属关系、朋友关系、同学关系、同事关系、合作关系…

地名：

地名—类型地名—所属地区

机构名：

机构名—类型机构名—所属地区

藏语词汇词义特征及向量表示如下：

藏语是谓语后置型语言，动词是句子的核心，藏语格标记能明确指示句子各组块之间的语法和语义结构关系，因此特征的选取重点包括藏语后置谓词，以及相关的格信息。根据藏语的特点，本实施例选取如下词汇语义特征，构成基于词向量的词汇语义特征向量。

例如，实体对e₁和e₂，(C_pre,e₁,C_mid,e₂,C_post)词汇语义特征包括：

C_pre：实体1前面相邻2个词；

C_mid：实体1后面1个词，实体2前面1个词，如有格助词和指示词，选取；如果没有格助词和指示词，用零向量填充；

C_post：实体2后2个词，如有格助词和动词，选取；如果没有格助词和动词，用零向量填充。

以LF＝[C_pre,e₁,C_mid,e₂,C_post]^T构成的矩阵代表词汇语义向量，则定义实体关系的词汇语义特征Y＝W₁LF，其中，W₁代表权重。

藏语句子特征及向量表示如下：

采用窗口方法解决不同句子对应词序列长短不一的问题，同时引入词的位置特征，具体地：

上下文窗口的词向量矩阵：给定一个输入句子，考虑所有大小为w的窗口，从而得到了具体的词向量表示：WF＝{[x_s,x₀,x₁],[x₀,x₁,x₂],…,[x_n-1,x_n,x_e]}^n-1。

基于词距离的位置特征描述：用两个词之间的距离来描述词的位置，从而获得词的位置矩阵PF＝[d₁,d₂,…,d_n]。

以SF＝[WF,PF]^T构成的矩阵代表句子向量，则定义实体关系的句子特征Z＝W₂SF，W₂代表权重。

最终获得藏语实体关系的词汇语义特征Y和句子特征Z作为实体关系分类的输入。

步骤104，构建基于神经网络的藏语实体关系分类模型。

具体地，将藏语实体关系的词汇语义特征和句子特征作为实体关系分类的输入，获得实体关系的特征向量，研究基于神经网络的实体关系分类模型。

图4为本发明的实施例的藏语实体关系分类模型示意图，如图所示，词汇语义特征Y和句子特征Z作为实体关系分类的输入，送入一个标准的线性层得到实体关系的特征向量f＝W₃×[Y,Z]，通过非线性的激活函数g＝sigmoid函数，提取高度非线性特征。

以包含两个及以上命名实体的句子作为样本，通过所选句子及其上下文的特征，采用向量空间模型计算特征的相似度。利用相似度信息，构建每一个实体对(顶点)的近邻图，在图上依据点之间的相似性进行传递。通过构建实体关系的图，计算节点到节点之间的路径得分，最大化路径得分，实现藏语实体关系的分类推断。

根据藏语词汇语义向量和藏语句子向量，对藏语关系实体f_i＝(e₁,e₂)进行知识表示和度量。假设为所有实体对候选关系实例结合，其中n是所有实体对候选关系实例的数目。假设是所有关系类别标号的集合，其中r_j代表某一关系类别，R是所有关系类型的数目。关系抽取的假设前提是：如果两个关系实例相似度很高，即特征集合相似且语法结构相似，则它们属于同一种关系类型。如图4所示，任意两个节点f_i和f_j相连的边用相似度表示，其权重为：其中，σ是一个平衡因子，w_ij为边的权重。可以设置为有标签样本在不同类别中的平均相似度。

步骤105，抽取藏语实体关系

具体地，将实体关系特征向量作为输入，构建基于神经网络的实体关系分类模型，并对实体关系特征向量做多层的特征提取，最终获得藏语实体关系分类。

用S表示节点到节点之间的路径得分，则S等于节点f_i到节点f_j之间所有连接边的权重的均值。通过i＝arg maxS，训练神经网络中的参数θ＝{W₁,W₂,W₃}。采用的训练方式是最大化目标函数：

其中，S为节点到节点之间的路径得分，i为词的类别，θ为训练参数，f为实体关系的特征向量。

利用随机梯度下降法，反复迭代，并修正从而完成θ的训练，其中，λ为学习率，θ为训练参数。

进一步地，针对训练语料规模较小的情况，本课题采用半监督学习的策略，利用实体关系分类模型对大量未标记语料进行分类，对置信度较高的未标记样本选做标记样本，重复训练分类器，从而实现从大量未标记样本中的自学习，提高实体关系抽取的准确性。

本发明的藏语实体关系抽取方法，采用基于自然标注的藏汉跨语言训练语料的获取，通过建立藏语词向量模型，得出藏语实体关系的词汇语义特征和句子特征向量表示方法，通过建立藏语实体关系分类模型，实现藏语实体关系的抽取，提高了藏语实体关系分类的准确性，为藏语知识图谱、问答系统、信息抽取、信息检索等领域研究提供技术支撑和服务。对提高少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种藏语实体关系抽取方法，其特征在于，所述方法包括：

从藏汉文本语料信息中抽取训练语料；

构建藏语词向量模型；

2.根据权利要求1所述的方法，其特征在于，所述训练语料包括：藏语语义角色标注语料和基于自然标注的藏汉跨语言训练语料。

3.根据权利要求2所述的方法，其特征在于，所述基于自然标注的藏汉跨语言训练语料具体为：

利用汉语结构化和/或半结构化的自然标注语料，通过跨语言环境下的藏汉实体及句子映射，将汉语句子的标注传递给藏语，得到所述基于自然标注的藏汉跨语言训练语料。

4.根据权利要求1所述的方法，其特征在于，所述构建藏语词向量模型具体为：

通过对藏文网页文本进行分析，采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统，对所述藏文网页文本进行分词，作为所述藏语词向量模型的训练语料，构建所述藏语词向量模型。

5.根据权利要求1所述的方法，其特征在于，所述构建基于神经网络的实体关系分类模型，并对所述实体关系特征向量做多层的特征提取，最终获得实体关系分类具体为：

以包含两个及以上命名实体的句子作为样本，采用向量空间模型计算特征的相似度；

利用所述相似度信息，构建实体对近邻图，在所述近邻图上依据点之间的相似度进行传递；

通过构建实体关系图，计算节点到节点之间的路径得分，最大化路径得分，实现所述藏语实体关系的抽取。