CN105740234A - 一种基于mst算法的越南语依存树库构建方法 - Google Patents
一种基于mst算法的越南语依存树库构建方法 Download PDFInfo
- Publication number
- CN105740234A CN105740234A CN201610063686.8A CN201610063686A CN105740234A CN 105740234 A CN105740234 A CN 105740234A CN 201610063686 A CN201610063686 A CN 201610063686A CN 105740234 A CN105740234 A CN 105740234A
- Authority
- CN
- China
- Prior art keywords
- vietnamese
- dependency tree
- library
- dependency
- tree library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于MST算法的越南语依存树库构建方法,属于自然语言处理技术领域。本发明包括步骤:首先构建越南语依存树库训练语料库;再利用越南语依存树库训练语料库的语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;对得到的越南语依存树库语料库进行校正。本发明所构建的越南语依存树库对越南语语言的句法分析、机器翻译及息获取等上层应用能提供有力支撑;可以构建10万句越南语依存树库;本发明的方法避免了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;本发明的方法相比采用CRFParser和借助汉?越双语词对齐语料构建越南语依存树库方法准确率明显提高。
Description
技术领域
本发明涉及一种基于MST算法的越南语依存树库构建方法,属于自然语言处理技术领域。
背景技术
越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方人民友好往来与相处、相互学习方面起到了十分重要的作用。因此,针对汉越双语的研究工作具有重要的现实意义。在越南语和汉语的互译过程中,越南语的句法分析是十分重要的基础工作。完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树;而浅层句法分析不要求得到完全的句法分析树,只要求识别其中的某些结构相对简单的成分,即它将句法分析分解为两个子任务:语块的识别和分析;语块之间的依附关系分析。由于采用完全句法分析难度相对比较大,因此浅层句法分析成为当前句法分析主流。依存句法分析属于浅层句法分析,也是器分析语言句法特征非常有效的方法之一。大规模越南语依存树库的构建,已经成为整个越南语依存分析的核心工作,如果能对该问题加以有效合理的解决,将对汉-越双语的双向翻译和信息检索提供有力的支撑。
发明内容
本发明提供了一种基于MST算法的越南语依存树库构建方法,以解决人工标注越南语依存树库耗时费力的难题,弥补大规模越南语依存树库稀缺的问题,本发明提出的越南语依存树库构建方法对将对汉-越双语的双向翻译和信息检索提供有力的支撑。
本发明的技术方案是:一种基于MST算法的越南语依存树库构建方法,所述基于MST算法的越南语依存树库构建方法的具体步骤如下:
Step1、首先构建越南语依存树库训练语料库;
所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
所述步骤Step2中,利用MST模型训练越南语句子得到越南语依存树库的具体步骤为:
Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;
Step2.2、利用MST模型训练越南语句子得到越南语依存树库。
Step3、对得到的越南语依存树库语料库进行校正。
所述步骤Step3中,利用依存关系校正器对得到的越南语依存树库的语料进行校正的具体步骤为:
Step3.1、首先分析总结依存树库中存在的错误的分类,然后将这些错误进行分析和整理,为后面的校正做准备;
Step3.2、利用依存关系校正器对越南语依存树库进行校正,最后得到高质量规模的越南语依存树库。
本发明的有益效果是:
1、构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;
2、构建了10万句越南语依存树库;
3、本发明提出的构建依存树的方法省略了人工标注越南语依存树库的过程,大大的节省了人力和构建树库的时间;
4、本发明提出的构建依存树的方法在语料规模较大的情况下相比采用借助汉-越双语词对齐语料构建越南语依存树库的方法准确率明显提高。
附图说明
图1是本发明中的流程图;
图2是本发明的中文依存关系示意图;
图3是本发明越南语依存关系构建过程示意图。
具体实施方式
实施例1:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:
Step1、首先构建越南语依存树库训练语料库;
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
Step3、对得到的越南语依存树库语料进行校正。
实施例2:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:
Step1、首先构建越南语依存树库训练语料库;
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
Step3、对得到的越南语依存树库语料进行校正。
所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映 射到越南语的句子中去,从而得到越南语依存树库训练语料库。
实施例3:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:
Step1、首先构建越南语依存树库训练语料库;
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
Step3、对得到的越南语依存树库语料进行校正。
所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。
所述步骤Step2的具体步骤为:
Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;
Step2.2、利用MST模型训练越南语句子得到越南语依存树库。
实施例4:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:
Step1、首先构建越南语依存树库训练语料库;
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
Step3、利用依存关系校正器对得到的越南语依存树库的语料进行校正。
所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。
所述步骤Step2的具体步骤为:
Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;
Step2.2、利用MST模型训练越南语句子得到越南语依存树库。
实施例5:如图1-3所示,一种基于MST算法的越南语依存树库构建方法,所述方法的具体步骤为:
Step1、首先构建3万句越南语依存树库训练语料库;
所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。
所述步骤Step1中首先构建越南语依存树库作为训练语料:
构建一部分越南语依存树库语料作为训练语料是构建依存句法分析是机器的基础。只有建设出高质量的训练语料,才能以之为基础进行信息化开发工作。依存树库语料也是进行句 法分析不可缺少的一个组成部分,当然也是构建大规模越南语依存树库的重要前提,依存树库语料的构建决定了最后的依存树库的效果。构建依存树库训练语料具体步骤如下:
1)、首先对汉越平行句对进行词对齐处理;
首先通过网络爬取、双语书籍扫描等手段收集汉越双语平行句对,针对已有的汉越平行句对,通过整理和去重等处理我们得到了规模大约在30000句的汉越依存平行句对库。然后在此基础上使用GIZA++进行词对齐训练,最后再通过人工调整得到汉越词对齐平行句对库。
2)、对汉越词对齐平行句对库进行中文句子依存句法分析处理;
依存关系可以用树形图来表示,表示依存关系的树形图,叫做“依存树”(dependency tree)。依存树对句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。目前已经构建了一个包含大约30000句汉语句子的依存树库,这是构建越南语依存树库的前提。主要实现思想如下:利用LTP语言处理平台训练依存树功能得到中文的依存树。具体的中文依存树如图2所示;其中,“爱上”为整句话的核心词用“ROOT”表示。“聪明”依存于“的”,它们之间的已存关系为右附加关系用“RAD”表示。“倩倩”依存于“聪明”,它们之间的依存关系为定中关系用“ATT”表示。“爱上”依存于“倩倩”,它们之间的依存关系为主谓关系用“SBV”表示。“爱上”依存于“倩倩”,它们之间的依存关系为主谓关系用“SBV”表示。“爱上”依存于“不由自主”,它们之间的依存关系为状中关系用“ADV”表示。“不由自主”依存于“地”,它们之间的依存关系为右附加关系用“RAD”表示。“爱上”依存于“了”,它们之间的依存关系为右附加关系用“RAD”表示。“爱上”依存于“马纳”,它们之间的依存关系为动宾关系用“VOB”表示。“愚笨”依存于“的”,它们之间的依存关系为右附加关系用“RAD”表示。“马纳”依存于“愚笨”,它们之间的依存关系为定中关系用“ATT”表示。
3)、把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
基于前述的汉语—越南语词对齐以及针对汉语的句法分析,接下来要做的就是从汉语到越南语的依存关系映射,即根据汉语依存句法树和汉语—越南语词对齐的关系,进一步生成越南语的依存句法树。对两种语言进行研究发现,虽然越南语子中的词序与汉语句子中的词序不一致,但是依存关系却是一致的,所以可以把汉语句子的依存关系直接映射到越南句子上,具体方法如图3所示;其中,“她”对应于“先生”对应于“工作”对应于“在”对应于“加拿大”对应于“Canada”。因此中文句 子中两个词之间存在的依存关系可以直接映射到越南语句子上,最后得到越南语依存树。其中,为整句话的核心词用“ROOT”表示。依存于它们之间的依存关系为定中关系用“ATT”表示。依存于它们之间的依存关系为主谓关系用“SBV”表示。依存于它们之间的依存关系为状中关系用“ADV”表示。依存于“Canada”,它们之间的依存关系为介宾关系用“POB”表示。
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
所述步骤Step2中,利用MST模型训练越南语句子得到越南语依存树库的具体步骤为:
Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;
Step2.2、利用MST模型训练越南语句子得到越南语依存树库。
所述Step2中利用MST模型训练新的越南语依存树库语料:
基于前面构建的越南语依存树语料,这里使用MST算法训练得到依存关系模型,然后利用得到的模型对新的越南语句子进行训练,这里我们将越南语依存树库的规模扩充到20万句。
1)、使用MST算法训练得到模型;
MST法采用全句的依存树进行训练,依存分析时使用最大生成树搜索整句的最优依存树。我们将一个越南语句子S={s1,s2,...,sn}的依存关系树表示为一个有向图G=(V,E),其中越南语句子中的词构成G的顶点集合V={v1,v2,...,vn},表示越南语词间依存关系的连线。若依存树中有一条从顶点i指向顶点j的有向连线,则顶点i,j∈V间就有一条有向边(i,j)∈E,每一条有向边权重定义为score(i,j,y),即j依存于i的概率。其中y为依存关系类型。一棵依存关系树的权重即为这棵树中有向边权重的总和。那么,判别式的依存分析方法将寻找最优结果转化为在有向图G=(V,E)中搜索最大生成树问题:
2)、利用MST模型训练新的越南语句子得到规模较大的越南语依存树库;
这里我们利用训练得到的模型对新的越南语句子进行训练从而扩充新的越南语依存树库语料,这里我将语料库的量增加到了20万句。
Step3、对得到的越南语依存树库语料进行校正。
所述步骤Step3中,对得到的越南语依存树库语料库进行校正的具体步骤为:
Step3.1、首先分析总结依存树库中存在的错误的分类,然后将这些错误进行分析和整理,为后面的校正做准备;
Step3.2、利用依存关系校正器对依存树库进行校正,最后得到高质量规模的越南语依存树库。
所述步骤Step3中对新生成的越南语依存树库语料库中的语料进行校正:
1)、分析总结依存树库中存在的错误分为哪几类;
这里我们通过测试语料来分析越南语依存树库存在哪几类的错误,然后将一些比较常见的错误进行分析和整理,为后面的校正做准备。
2)、利用依存关系校正器对依存树库进行校正,最后得到质量较高规模较大的越南语依存树库;
通过上一步对树库中存在的错误的分析和整理,我们使用依存关系校正器对越南语依存关系进行校正。
本发明以3,0000条采用汉语为中介构建越南语依存树库的方法得到的数据集,加以后期的人工校正得到准确率较高的依存树语料,然后使用CRFParser和MSTParser工具对其进行机器学习建模,生成依存树模型,再用生成的越南语依存树模型对越南语句子进行扩展。实验中扩展了200,000句越南语依存树库。同时,采用汉语为中介构建越南语依存树库的方法使用的是10,000条汉语越南语词对齐平行句子对;汉语的依存句法分析是采用哈尔滨工业大学的LTP平台完成的,LTP工具的标注集我们按照实验的要求和越南语的特点进行了统一的改动;通过汉语—越南语的映射生成10,000条越南句子的依存树库。
实验结果如表1所示。表1中可以看出,在越南语语料相对比较多的情况下,采用以基于MST算法的越南语依存树库构建方法所生成的越南语依存树库,准确率相比采用 CRFParser和以汉语为中介构建的越南语依存树库的方法明显提高。
其中,整句依存句法分析评测指标选择:依存弧准确率(Unlabeled Attachment Score,UAS)、标识准确率(Labeled Attachment Score,LAS)和根节点正确率(Root Accuracy,RA),定义如下:
表1其他方法和本发明方法的比较
方法 | UAS% | LAS% | RA% |
采用汉语为中介构建的越南语依存树库 | 74.12 | 73.92 | 81.59 |
CRFParser构建的越南语依存树库 | 76.56 | 74.12 | 82.35 |
MSTParser构建的越南语依存树库 | 79.03 | 75.66 | 83.59 |
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种基于MST算法的越南语依存树库构建方法,其特征在于:所述基于MST算法的越南语依存树库构建方法的具体步骤如下:
Step1、首先构建越南语依存树库训练语料库;
Step2、利用越南语依存树库训练语料库的训练语料训练得到MST模型,再利用MST模型训练越南语句子得到越南语依存树库;
Step3、对得到的越南语依存树库语料库进行校正。
2.根据权利要求1所述的基于MST算法的越南语依存树库构建方法,其特征在于:所述步骤Step1中,构建越南语依存树库训练语料库的具体步骤为:
Step1.1、首先对汉越平行句对进行词对齐处理,得到汉越词对齐平行句对库;
Step1.2、对汉越词对齐平行句对库进行中文句子依存句法分析处理得到中文依存树语料库;
Step1.3、把构建好的中文依存树语料库中的中文依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库训练语料库。
3.根据权利要求1所述的基于MST算法的越南语依存树库构建方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、利用得到的越南语依存树库训练语料库的训练语料使用MST算法训练得到MST模型;
Step2.2、利用MST模型训练越南语句子得到越南语依存树库。
4.根据权利要求1所述的基于MST算法的越南语依存树库构建方法,其特征在于:所述步骤Step3中,对得到的越南语依存树库的语料进行校正的具体步骤为:
Step3.1、首先分析总结依存树库中存在的错误的分类,然后将这些错误进行分析和整理,为后面的校正做准备;
Step3.2、利用依存关系校正器对越南语依存树库进行校正。
5.根据权利要求1所述的基于MST算法的越南语依存树库构建方法,其特征在于:所述步骤Step3中,对得到的越南语依存树库的语料进行校正的具体方法为:利用依存关系校正器对得到的越南语依存树库的语料进行校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610063686.8A CN105740234A (zh) | 2016-01-29 | 2016-01-29 | 一种基于mst算法的越南语依存树库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610063686.8A CN105740234A (zh) | 2016-01-29 | 2016-01-29 | 一种基于mst算法的越南语依存树库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105740234A true CN105740234A (zh) | 2016-07-06 |
Family
ID=56247033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610063686.8A Pending CN105740234A (zh) | 2016-01-29 | 2016-01-29 | 一种基于mst算法的越南语依存树库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740234A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN110874535A (zh) * | 2018-08-28 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270120A1 (en) * | 2007-01-04 | 2008-10-30 | John Pestian | Processing text with domain-specific spreading activation methods |
CN101814065A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 句法分析装置及句法分析方法 |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
-
2016
- 2016-01-29 CN CN201610063686.8A patent/CN105740234A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270120A1 (en) * | 2007-01-04 | 2008-10-30 | John Pestian | Processing text with domain-specific spreading activation methods |
CN101814065A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 句法分析装置及句法分析方法 |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
Non-Patent Citations (2)
Title |
---|
PHUONG-THAI NGUYEN ET AL.: "Building a Large Syntactically-Annotated Corpus of Vietnamese", 《"09 PROCEEDINGS OF THE THIRD LINGUISTIC ANNOTATION WORKSHOP》 * |
曹井香 等: "中英平行短语依存树库构建", 《大连理工大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN106250367B (zh) * | 2016-07-27 | 2019-04-09 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN110874535A (zh) * | 2018-08-28 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
CN110874535B (zh) * | 2018-08-28 | 2023-07-25 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN103970666B (zh) | 一种软件重复缺陷报告检测的方法 | |
CN103176963B (zh) | 基于crf++汉语句义结构模型自动标注方法 | |
CN110502361A (zh) | 面向bug报告的细粒度缺陷定位方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
CN105138507A (zh) | 一种基于模式自学习的中文开放式关系抽取方法 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN103377239A (zh) | 计算文本间相似度的方法和装置 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN102760121B (zh) | 依存映射方法及系统 | |
CN107145584A (zh) | 一种基于n‑gram模型的简历解析方法 | |
CN103823857A (zh) | 基于自然语言处理的空间信息检索方法 | |
CN105808711A (zh) | 一种基于文本语义的概念生成模型的系统和方法 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN105740235B (zh) | 一种融合越南语语法特征的短语树到依存树的转换方法 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN106156013B (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN111309930A (zh) | 一种基于表示学习的医学知识图谱实体对齐方法 | |
CN103116573A (zh) | 一种基于词汇注释的领域词典自动扩充方法 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN105740234A (zh) | 一种基于mst算法的越南语依存树库构建方法 | |
CN106250367B (zh) | 基于改进的Nivre算法构建越南语依存树库的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160706 |
|
RJ01 | Rejection of invention patent application after publication |