CN104809176B - 藏语实体关系抽取方法 - Google Patents
藏语实体关系抽取方法 Download PDFInfo
- Publication number
- CN104809176B CN104809176B CN201510173998.XA CN201510173998A CN104809176B CN 104809176 B CN104809176 B CN 104809176B CN 201510173998 A CN201510173998 A CN 201510173998A CN 104809176 B CN104809176 B CN 104809176B
- Authority
- CN
- China
- Prior art keywords
- language
- tibetan language
- tibetan
- entity relationship
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种藏语实体关系抽取方法,该方法包括以下步骤:从藏汉文本语料信息中抽取训练语料;构建藏语词向量模型;通过藏语词向量模型获得实体关系特征向量;将实体关系特征向量作为输入,构建基于神经网络的实体关系分类模型,并对实体关系特征向量做多层的特征提取,最终获得藏语实体关系分类。本发明通过建立藏语词向量模型,研究和解决藏语实体关系的词汇语义特征和句子特征向量表示方法,进而通过建立藏语实体关系分类模型,实现藏语实体关系的抽取,提高了藏语实体关系分类的准确性,为藏语知识图谱、问答系统、信息抽取、信息检索等领域研究提供技术支撑和服务。
Description
技术领域
本发明涉及一种藏语实体关系抽取方法,尤其涉及一种基于词向量的藏语实体关系抽取方法。
背景技术
随着互联网的快速普及,特别是发展中国家互联网用户的快速增加,网络上非英语文本资源数量急速增长,其增长速度远远超过了10年前的速度,并且越来越多的网上信息以多语言的形式发布。据中央民族大学国家语言资源监测与研究中心少数民族语言分中心调查:截止到2011年12月底,大陆少数民族语言文字的网站总量在1,250个左右,其中维吾尔文网站840个、藏文网站146个、蒙古文网站136个。“与全国网民增长速度相比,少数民族网民的增速较为突出,例如藏族网民增幅达86%,远远高于全国平均增长速度”。
Web内容的爆炸式增长,使得对Web的社会网络研究已经不再局限于对Web结构的分析,而是转向以Web内容为研究对象的分析,其中知识图谱(Knowledge Graph)成为大数据时代自然语言处理领域的一个研究热点。知识图谱以结点代表实体或者概念,边代表实体/概念之间的各种语义关系,其中实体关系的抽取是主要研究内容之一。知识图谱以全面、完整的知识体系为信息检索、问答系统、知识库构建等领域的研究提供了资源和支撑,而目前已有的Google(超过5.7亿实体,18亿关系),DBpedia(超过1900万实体,1亿关系),Wiki-links(4000万排除歧义的关系),Wolframalpha(10万亿关系),Probase(超过265万实体),百度知心,搜狗知立方等知识图谱只提供英、汉、法等语言的相关知识,少数民族语言知识图谱的构建才刚刚起步。
例如,当我们搜索“(达赖喇嘛)”时,Google会出现64,100条结果;而当我们搜索“(嘉瓦仁波切)”时,Google会出现586,000条结果。在藏语中,通常称(达赖喇嘛)为(嘉瓦仁波切),而目前的搜索引擎却没有显示两者之间的关系。而且,所有搜索结果以含有关键词的文本显示为主,没有知识的结构表示。因此,我们得不到全面准确的相关信息,更不能实现信息的深度挖掘。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种基于词向量的藏语实体关系抽取方法,通过建立藏语词向量模型,研究和解决藏语实体关系的词汇语义特征和句子特征向量表示方法,进而通过建立藏语实体关系分类模型,以实现藏语实体关系的抽取,提高了藏语实体关系分类的准确性。
为实现上述目的,本发明提供了一种藏语实体关系抽取方法,该方法包括:
从藏汉文本语料信息中抽取训练语料;
构建藏语词向量模型;
通过所述藏语词向量模型获得实体关系特征向量,所述实体关系特征向量包括藏语词汇语义特征向量和藏语句子特征向量;
将所述实体关系特征向量作为输入,根据所述训练语料构建基于神经网络的实体关系分类模型,并对所述实体关系特征向量做多层的特征提取,最终获得藏语实体关系分类。
进一步地,所述训练语料包括:藏语语义角色标注语料和基于自然标注的藏汉跨语言训练语料。
进一步地,所述基于自然标注的藏汉跨语言训练语料具体为:利用汉语结构化、半结构化的自然标注语料,通过跨语言环境下的藏汉实体及句子映射,将汉语句子的标注传递给藏语,得到所述基于自然标注的藏汉跨语言训练语料。
进一步地,所述构建藏语词向量模型具体为:通过对藏文网页文本进行分析,采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统,对所述藏文网页文本进行分词,作为所述藏语词向量模型的训练语料,构建所述藏语词向量模型。
进一步地,所述构建基于神经网络的实体关系分类模型,并对所述实体关系特征向量做多层的特征提取,最终获得实体关系分类具体为:以包含两个及以上所述命名实体的句子作为样本,采用向量空间模型计算特征的相似度;利用所述相似度信息,构建实体对近邻图,在所述近邻图上依据点之间的相似度进行传递;通过构建实体关系图,计算节点到节点之间的路径得分,最大化路径得分,实现所述藏语实体关系的抽取。
优选地,所述实现所述藏语实体关系的抽取还包括:利用半监督学习法,通过实体关系分类模型对未标注语料进行分类,将置信度较高的未标记语料选做标记样本,重复训练分类器,实现所述藏语实体关系的抽取。
本发明的藏语实体关系抽取方法利用基于自然标注的藏汉跨语言训练语料的获取,通过建立藏语词向量模型,研究和解决藏语实体关系的词汇语义特征和句子特征向量表示方法,进而通过建立藏语实体关系分类模型,实现藏语实体关系的抽取,提高了藏语实体关系分类的准确性,为藏语知识图谱、问答系统、信息抽取、信息检索等领域研究提供技术支撑和服务。
附图说明
图1为本发明的藏语实体关系抽取方法的流程图;
图2为本发明的实施例的基于自然标注的藏汉跨语言训练语料获取的示意图;
图3为本发明的实施例的藏语词向量模型示意图;
图4为本发明的实施例的藏语实体关系分类模型示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明通过藏语实体关系的词汇语义特征和句子特征向量表示,建立藏语实体关系分类模型,以实现藏语实体关系的抽取。
图1为本发明的藏语实体关系抽取方法的流程图,如图所示,该方法包括以下步骤:
步骤101,抽取训练语料。
具体地,从藏汉文本语料信息中抽取训练语料。
来源于国家语言资源监测与研究中心少数民族语言分中心的藏语语义角色标注的文本语料共5,000句,对该语料进行二次处理,对含有实体关系的句子进行提取,获得包含有实体及关系属性的语料。
利用汉语结构化、半结构化的自然标注语料,通过跨语言环境下的藏汉实体及句子映射,将汉语句子的标注传递给藏语,得到基于自然标注的藏汉跨语言训练语料。例如,在维基百科8,966条藏汉对应实体中,汉语存在信息框(infobox)的实体有3,587条,对应藏语解释的有3,062条。本实施例提取了含有infobox的3,062条藏汉实体及解释,图2为本发明的实施例的基于自然标注的藏汉跨语言训练语料获取的示意图,如图所示,将汉语实体属性进行回标,获取含有实体、属性的中文句子。通过实体映射,将汉语句子的标注传递给藏语,获得藏语含有“实体—属性—值”三元组关系的句子,获得本实施例的训练语料。
步骤102,构建藏语词向量模型。
具体地,通过对藏文网页文本进行分析,采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统,对所述藏文网页文本进行分词,作为所述藏语词向量模型的训练语料,构建所述藏语词向量模型。
本实施例对2011-2014年度包括青海藏语广播网、人民网藏文版、中国西藏新闻网、新华网西藏频道、中国共产党新闻网、中国西藏网、中国藏族网通7家访问量和影响力较大的藏文网站,共51,038个网页文本进行了分析,采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统,对文本进行分词,作为藏语词向量模型的训练语料,基于神经网络构建藏语词向量的模型。
图3为本发明的实施例的藏语词向量模型示意图,如图所示,输入层:包括词w前后的2n个词w1,w2,…,w2n的词向量v(context(w1)),v(context(w2)),…,v(context(w2n))∈Rm,m表示词向量的长度。本实施例中词向量长度选定100维。隐藏层:将输入层的2n个向量做求和累加,即其中v(context(wi))为词wi的词向量,xw为词向量的和。输出层:输出层以语料中出现过的词作为叶子节点,以各词在语料中出现的次数为权值构造Huffman树。对于词典中的任意词w,Huffman树中必存在一条从根结点到词w对应节点的路径的唯一路径pw。路径pw上存在lw-1个分支,将每个分支看作一次二分类,每一次分类就产生一个概率其中,θ为训练参数,xw为词向量的和,将这些概率乘起来作为条件概率p(w|context(w))。目标函数:其中,θ为训练参数,xw为词向量的和。采用随机梯度上升法使得目标函数最大化,从而最终训练获得藏语的词向量。
步骤103,获取藏语实体关系的词汇语义特征和句子特征向量表示。
具体地,通过藏语词向量模型获得实体关系特征向量,实体关系特征向量包括藏语词汇语义特征向量和藏语句子特征向量。
本实施例研究的实体关系包括:
人名:
①与人属性相关的命名实体关系抽取
人名—组织机构名 所属关系
人名—人名 同指关系(如别名、简称等)
②与人属性相关的其他信息识别
人名—国籍 人名—民族 人名—出生日期
人名—出生地 人名—性别 人名—职务(职业、职称)
③人物与人物之间的关系抽取
人名—人名 亲属关系、朋友关系、同学关系、同事关系、合作关系…
地名:
地名—类型 地名—所属地区
机构名:
机构名—类型 机构名—所属地区
藏语词汇词义特征及向量表示如下:
藏语是谓语后置型语言,动词是句子的核心,藏语格标记能明确指示句子各组块之间的语法和语义结构关系,因此特征的选取重点包括藏语后置谓词,以及相关的格信息。根据藏语的特点,本实施例选取如下词汇语义特征,构成基于词向量的词汇语义特征向量。
例如,实体对e1和e2,(Cpre,e1,Cmid,e2,Cpost)词汇语义特征包括:
Cpre:实体1前面相邻2个词;
Cmid:实体1后面1个词,实体2前面1个词,如有格助词和指示词,选取;如果没有格助词和指示词,用零向量填充;
Cpost:实体2后2个词,如有格助词和动词,选取;如果没有格助词和动词,用零向量填充。
以LF=[Cpre,e1,Cmid,e2,Cpost]T构成的矩阵代表词汇语义向量,则定义实体关系的词汇语义特征Y=W1LF,其中,W1代表权重。
藏语句子特征及向量表示如下:
采用窗口方法解决不同句子对应词序列长短不一的问题,同时引入词的位置特征,具体地:
上下文窗口的词向量矩阵:给定一个输入句子,考虑所有大小为w的窗口,从而得到了具体的词向量表示:WF={[xs,x0,x1],[x0,x1,x2],…,[xn-1,xn,xe]}n-1。
基于词距离的位置特征描述:用两个词之间的距离来描述词的位置,从而获得词的位置矩阵PF=[d1,d2,…,dn]。
以SF=[WF,PF]T构成的矩阵代表句子向量,则定义实体关系的句子特征Z=W2SF,W2代表权重。
最终获得藏语实体关系的词汇语义特征Y和句子特征Z作为实体关系分类的输入。
步骤104,构建基于神经网络的藏语实体关系分类模型。
具体地,将藏语实体关系的词汇语义特征和句子特征作为实体关系分类的输入,获得实体关系的特征向量,研究基于神经网络的实体关系分类模型。
图4为本发明的实施例的藏语实体关系分类模型示意图,如图所示,词汇语义特征Y和句子特征Z作为实体关系分类的输入,送入一个标准的线性层得到实体关系的特征向量f=W3×[Y,Z],通过非线性的激活函数g=sigmoid函数,提取高度非线性特征。
以包含两个及以上命名实体的句子作为样本,通过所选句子及其上下文的特征,采用向量空间模型计算特征的相似度。利用相似度信息,构建每一个实体对(顶点)的近邻图,在图上依据点之间的相似性进行传递。通过构建实体关系的图,计算节点到节点之间的路径得分,最大化路径得分,实现藏语实体关系的分类推断。
根据藏语词汇语义向量和藏语句子向量,对藏语关系实体fi=(e1,e2)进行知识表示和度量。假设为所有实体对候选关系实例结合,其中n是所有实体对候选关系实例的数目。假设是所有关系类别标号的集合,其中rj代表某一关系类别,R是所有关系类型的数目。关系抽取的假设前提是:如果两个关系实例相似度很高,即特征集合相似且语法结构相似,则它们属于同一种关系类型。如图4所示,任意两个节点fi和fj相连的边用相似度表示,其权重为:其中,σ是一个平衡因子,wij为边的权重。可以设置为有标签样本在不同类别中的平均相似度。
步骤105,抽取藏语实体关系
具体地,将实体关系特征向量作为输入,构建基于神经网络的实体关系分类模型,并对实体关系特征向量做多层的特征提取,最终获得藏语实体关系分类。
用S表示节点到节点之间的路径得分,则S等于节点fi到节点fj之间所有连接边的权重的均值。通过i=arg maxS,训练神经网络中的参数θ={W1,W2,W3}。采用的训练方式是最大化目标函数:
其中,S为节点到节点之间的路径得分,i为词的类别,θ为训练参数,f为实体关系的特征向量。
利用随机梯度下降法,反复迭代,并修正从而完成θ的训练,其中,λ为学习率,θ为训练参数。
进一步地,针对训练语料规模较小的情况,本课题采用半监督学习的策略,利用实体关系分类模型对大量未标记语料进行分类,对置信度较高的未标记样本选做标记样本,重复训练分类器,从而实现从大量未标记样本中的自学习,提高实体关系抽取的准确性。
本发明的藏语实体关系抽取方法,采用基于自然标注的藏汉跨语言训练语料的获取,通过建立藏语词向量模型,得出藏语实体关系的词汇语义特征和句子特征向量表示方法,通过建立藏语实体关系分类模型,实现藏语实体关系的抽取,提高了藏语实体关系分类的准确性,为藏语知识图谱、问答系统、信息抽取、信息检索等领域研究提供技术支撑和服务。对提高少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种藏语实体关系抽取方法,其特征在于,所述方法包括:
从藏汉文本语料信息中抽取训练语料;
构建藏语词向量模型;
通过所述藏语词向量模型获得实体关系特征向量,所述实体关系特征向量包括藏语词汇语义特征向量和藏语句子特征向量;
将所述实体关系特征向量作为输入,根据所述训练语料构建基于神经网络的实体关系分类模型,并对所述实体关系特征向量做多层的特征提取,最终获得藏语实体关系分类。
2.根据权利要求1所述的方法,其特征在于,所述训练语料包括:藏语语义角色标注语料和基于自然标注的藏汉跨语言训练语料。
3.根据权利要求2所述的方法,其特征在于,所述基于自然标注的藏汉跨语言训练语料具体为:
利用汉语结构化和/或半结构化的自然标注语料,通过跨语言环境下的藏汉实体及句子映射,将汉语句子的标注传递给藏语,得到所述基于自然标注的藏汉跨语言训练语料。
4.根据权利要求1所述的方法,其特征在于,所述构建藏语词向量模型具体为:
通过对藏文网页文本进行分析,采用国家语言资源监测与研究中心少数民族语言分中心开发完成的藏文分词及词性标注系统,对所述藏文网页文本进行分词,作为所述藏语词向量模型的训练语料,构建所述藏语词向量模型。
5.根据权利要求1所述的方法,其特征在于,所述构建基于神经网络的实体关系分类模型,并对所述实体关系特征向量做多层的特征提取,最终获得实体关系分类具体为:
以包含两个及以上命名实体的句子作为样本,采用向量空间模型计算特征的相似度;
利用所述相似度信息,构建实体对近邻图,在所述近邻图上依据点之间的相似度进行传递;
通过构建实体关系图,计算节点到节点之间的路径得分,最大化路径得分,实现所述藏语实体关系的抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510173998.XA CN104809176B (zh) | 2015-04-13 | 2015-04-13 | 藏语实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510173998.XA CN104809176B (zh) | 2015-04-13 | 2015-04-13 | 藏语实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104809176A CN104809176A (zh) | 2015-07-29 |
CN104809176B true CN104809176B (zh) | 2018-08-07 |
Family
ID=53693998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510173998.XA Active CN104809176B (zh) | 2015-04-13 | 2015-04-13 | 藏语实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809176B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407211B (zh) * | 2015-07-30 | 2019-08-06 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN107391505B (zh) * | 2016-05-16 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN107590121B (zh) * | 2016-07-08 | 2020-09-11 | 科大讯飞股份有限公司 | 文本规整方法及系统 |
CN106446526B (zh) * | 2016-08-31 | 2019-11-15 | 北京千安哲信息技术有限公司 | 电子病历实体关系抽取方法及装置 |
CN106570132B (zh) * | 2016-10-27 | 2020-01-14 | 浙江大学 | 一种融合提及实体信息的文档向量学习方法 |
CN106599083A (zh) * | 2016-11-24 | 2017-04-26 | 海南州云藏藏文信息技术有限公司 | 云藏藏文搜索引擎服务系统 |
CN107315733A (zh) * | 2016-11-24 | 2017-11-03 | 海南州云藏藏文信息技术有限公司 | 智能藏文词性自动标注系统 |
CN106649819B (zh) * | 2016-12-29 | 2021-04-02 | 北京奇虎科技有限公司 | 一种提取实体词和上位词的方法及装置 |
CN107015963A (zh) * | 2017-03-22 | 2017-08-04 | 重庆邮电大学 | 基于深度神经网络的自然语言语义分析系统及方法 |
CN107220296B (zh) * | 2017-04-28 | 2020-01-17 | 北京拓尔思信息技术股份有限公司 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
CN107273349B (zh) * | 2017-05-09 | 2019-11-22 | 清华大学 | 一种基于多种语言的实体关系抽取方法及服务器 |
CN107203511B (zh) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107958025B (zh) * | 2017-11-13 | 2021-12-28 | 北京工业大学 | 弱监督实体关系抽取方法及其装置和电子设备 |
CN110019982B (zh) * | 2017-12-05 | 2021-07-06 | 航天信息股份有限公司 | 节点坐标的确定方法以及装置 |
CN108268447B (zh) * | 2018-01-22 | 2020-12-01 | 河海大学 | 一种藏文命名实体的标注方法 |
CN108874878B (zh) * | 2018-05-03 | 2021-02-26 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN108647310A (zh) * | 2018-05-09 | 2018-10-12 | 四川高原之宝牦牛网络技术有限公司 | 识别模型建立方法及装置、文字识别方法及装置 |
CN110555208B (zh) * | 2018-06-04 | 2021-11-19 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN109062937B (zh) * | 2018-06-15 | 2019-11-26 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN110609995B (zh) * | 2018-06-15 | 2023-06-27 | 中央民族大学 | 构建藏语问答语料库的方法及装置 |
CN108920465A (zh) * | 2018-07-13 | 2018-11-30 | 福州大学 | 一种基于句法语义的农业领域关系抽取方法 |
CN110110092B (zh) * | 2018-09-30 | 2021-03-09 | 北京国双科技有限公司 | 一种知识图谱构建方法及相关设备 |
CN109597856B (zh) * | 2018-12-05 | 2020-12-25 | 北京知道创宇信息技术股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN109815338B (zh) * | 2018-12-28 | 2021-10-22 | 北京市遥感信息研究所 | 基于混合高斯模型的知识图谱中关系抽取方法和系统 |
CN111611395B (zh) * | 2019-02-25 | 2023-05-16 | 北京嘀嘀无限科技发展有限公司 | 一种实体关系的识别方法及装置 |
CN109948156B (zh) * | 2019-03-13 | 2023-03-24 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110837564B (zh) * | 2019-09-25 | 2023-10-27 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
CN111444343B (zh) * | 2020-03-24 | 2021-04-06 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
CN111488741A (zh) * | 2020-04-14 | 2020-08-04 | 税友软件集团股份有限公司 | 一种税收知识数据语义标注方法及相关装置 |
CN112084778A (zh) * | 2020-08-04 | 2020-12-15 | 中南民族大学 | 基于新型关系注意力机制的实体关系抽取方法及设备 |
CN112256847B (zh) * | 2020-09-30 | 2023-04-07 | 昆明理工大学 | 融合事实文本的知识库问答方法 |
CN112395873B (zh) * | 2020-10-15 | 2022-02-01 | 北京百度网讯科技有限公司 | 对白角色标注模型的生成方法、装置及电子设备 |
CN112287043B (zh) * | 2020-12-29 | 2021-06-18 | 成都数联铭品科技有限公司 | 基于领域知识的图编码自动生成方法及系统、电子设备 |
CN113051913A (zh) * | 2021-04-09 | 2021-06-29 | 中译语通科技股份有限公司 | 藏文分词信息处理方法、系统、存储介质、终端及应用 |
CN113505244B (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军总医院 | 基于深度学习的知识图谱构建方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799577A (zh) * | 2012-08-17 | 2012-11-28 | 苏州大学 | 一种中文实体间语义关系抽取方法 |
CN103034726A (zh) * | 2012-12-18 | 2013-04-10 | 上海电机学院 | 文本过滤系统及方法 |
CN104008092A (zh) * | 2014-06-10 | 2014-08-27 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
-
2015
- 2015-04-13 CN CN201510173998.XA patent/CN104809176B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799577A (zh) * | 2012-08-17 | 2012-11-28 | 苏州大学 | 一种中文实体间语义关系抽取方法 |
CN103034726A (zh) * | 2012-12-18 | 2013-04-10 | 上海电机学院 | 文本过滤系统及方法 |
CN104008092A (zh) * | 2014-06-10 | 2014-08-27 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
Non-Patent Citations (4)
Title |
---|
中文实体关系抽取中的特征选择研究;董静等;《中文信息学报》;20070731;第21卷(第4期);第80-85,91页 * |
基于Deep Belief Nets 的中文名实体关系抽取;陈宇等;《软件学报》;20121031;第23卷(第10期);第2572-2585页 * |
基于句法语义特征的中文实体关系抽取;郭喜跃等;《中文信息学报》;20141130;第28卷(第6期);第183-189页 * |
面向互联网的藏文实体关系模板获取技术研究;马宁等;《中央民族大学学报(自然科学版)》;20150228;第24卷(第1期);第35-39页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104809176A (zh) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809176B (zh) | 藏语实体关系抽取方法 | |
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及系统 | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
CN107239481B (zh) | 一种面向多源网络百科的知识库构建方法 | |
CN110232186A (zh) | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 | |
CN109213995A (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
JP7362998B2 (ja) | Poi状態情報を取得する方法、及び装置 | |
CN110532390B (zh) | 一种基于ner与复杂网络特征的新闻关键词提取方法 | |
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN104484374A (zh) | 一种创建网络百科词条的方法及装置 | |
TW202001620A (zh) | 自動化網站資料蒐集方法 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
CN110287405A (zh) | 情感分析的方法、装置和存储介质 | |
CN113268606A (zh) | 知识图谱构建的方法和装置 | |
Kong et al. | Utilizing a crowdsourced phrasal lexicon to identify cultural ecosystem services in El Cajas National Park, Ecuador | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
Algur et al. | Sentiment analysis by identifying the speaker's polarity in Twitter data | |
Ding et al. | Scoring tourist attractions based on sentiment lexicon | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
CN110222343A (zh) | 一种中药种植资源命名实体识别方法 | |
CN103678607B (zh) | 一种情感标注系统的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |