CN105446956B - 一种汉语概念复合块标注库规范化处理方法 - Google Patents

一种汉语概念复合块标注库规范化处理方法 Download PDF

Info

Publication number
CN105446956B
CN105446956B CN201510863734.7A CN201510863734A CN105446956B CN 105446956 B CN105446956 B CN 105446956B CN 201510863734 A CN201510863734 A CN 201510863734A CN 105446956 B CN105446956 B CN 105446956B
Authority
CN
China
Prior art keywords
block
mark
binary tree
label
ccc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510863734.7A
Other languages
English (en)
Other versions
CN105446956A (zh
Inventor
吕学强
周强
苗琳
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Information Science and Technology University
Original Assignee
Tsinghua University
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Information Science and Technology University filed Critical Tsinghua University
Priority to CN201510863734.7A priority Critical patent/CN105446956B/zh
Publication of CN105446956A publication Critical patent/CN105446956A/zh
Application granted granted Critical
Publication of CN105446956B publication Critical patent/CN105446956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。

Description

一种汉语概念复合块标注库规范化处理方法
技术领域
本发明属于计算机科学与自然语言处理的句法分析技术领域,具体涉及一种汉语概念复合块标注库规范化处理方法。
背景技术
自然语言是人类交流的主要方式,其不同于如编程语言等为计算机而设的“人造”语言。随着计算机和互联网的广泛应用,计算机需要处理的自然语言文本内容迅速膨胀,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理研究受到广泛关注。
句法分析是自然语言理解的一个核心组成部分,是对自然语言进行深层分析的基础技术。句法分析根据一定的语法规则,自动地识别出句子的语法结构及语法关系,将一个线性序列的句子转换成一个结构化的语法树。随着自然语言处理技术应用的日益广泛,句法分析的作用愈加突出,它几乎成为众多自然语言处理应用的关键技术,如机器翻译、信息抽取、问答系统、检索系统等。句法标注则是对语料库中的语料文本进行句法分析和标注,以形成树库语料。目前语料标注的研究成为计算语言学领域的一个重要的研究方向。现在,很多人的研究集中在标注语料资源的开发和构建标准的语料库标注体系上,例如,清华大学TCT语料库在语料标注上采用双标注集的原则,并提出汉语概念复合块,来描述复杂句的句法信息。
TCT语料库采用完整的树形层次结构描述框架,采用双标注集原则,对每个句法树上的非终结结点给出成分标记和关系标记,以尽可能多而详尽地描述汉语句子蕴含的复杂、多变、有组合特性的句法信息。此外,在句法信息描述方面,提出了概念复合块(ConceptCompound Chunk,CCC)这一概念,来中和词语层和小句层的距离。
概念复合块是由2个或2个以上的词语按照一定的关联关系组合形成的信息描述单位。在经过词语切分和词性标注处理之后,通过句法分析,把句子中不同实意词和功能词组合形成的概念复合块标注出来。并通过确定这些CCC的外部成分和内部关系标记,形成了大规模的汉语真实文本概念复合块标注库CCC Bank。
然而目前的标注过程中仍有以下问题:
(1)由于目前标注工具的限制,对一些在标注过程中发现的词类标注错误,无法进行手工调整,只是在相应的CCC成分标记上有所体现。
(2)为了保证概念复合块描述体系的完整性,需要对CCC块中嵌套的事件句式添加内部特征标记。在现有标注版本中,对这些有明显特征的子类标记进行了缺省处理,以提高人工校对效率。
(3)在语料库标注工作中,由于多人多轮校对流程的限制,且不同校对者认识上有差异,导致对时间块和空间块标注不一致的情况。
语料标注是一个庞大的工程,需要消耗大量的人力、物力,且标注质量不一定能够达到人们的要求,尤其是复杂句,较简单句而言,结构复杂,逻辑层次多,并列成分多,因此当前汉语语料库标注块的正确率和规范性还远远不够,不能满足需求。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的汉语概念复合块标注库规范化处理方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。
进一步地,所述自动调整错误词类标记的过程包括以下四个步骤:
步骤1)对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤2)搜索所述句法二叉树,确定核心词位置;
步骤3)确定所述核心词的词类;
步骤4)判断所述核心词的词类的标记的正误,纠正错误标记。
进一步地,所述自动补充事件句式内部特征标记的过程包括以下三个步骤:
步骤A:对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤B:遍历所述句法二叉树,判断该事件句式的结构,确定其内部特征标记类型;
步骤C:对符合条件的CCC块自动添加相应的内部特征标记。
进一步地,所述时间块和空间块标记一致化处理的过程包括以下三个步骤:
步骤一:对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤二:遍历所述句法二叉树,判断时间块标记类型和空间块标记类型的正误;
步骤三:纠正错误的标记类型。
进一步地,所述步骤4)中纠正错误标记的算法为:先将需处理语料中的CCC块抽出,对每个CCC块构建二叉树,由关系标记定位到实义核心词,再由CCC成分标记判定实义核心词词类标记是否正确,对错误的标记进行相应的纠正。
进一步地,所述步骤2)搜索所述句法二叉树,确定核心词位置所依据的搜索规则如下表所示:
进一步地,所述步骤3)确定所述核心词的词类所依据的实义核心词词类标记与概念复合块成分标记之间的映射关系表如下表所示:
本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,可以进一步提高汉语语料库标注块的正确率和规范性,从而保证和提高了语料库的加工质量;解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。
附图说明
图1为本发明提供的汉语概念复合块标注库规范化处理方法的框图;
图2为一个句子句法二叉树的表现形式示意图;
图3为示例一的句子的句法二叉树示意图;
图4为示例二的句子的句法二叉树示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。CCC块采用二叉树结构表示(CCC为Concept Compound Chunk的缩写,即概念复合块)。在本发明中,提取CCC标注库中的CCC标注实例,对各CCC块分别构建句法二叉树。遍历二叉树,分析提取实例,对CCC块进行规范化处理。
所述自动调整错误词类标记的过程包括以下四个步骤:
步骤1)对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤2)搜索所述句法二叉树,确定核心词位置;
其中:
在CCC的词法分析阶段存在一些核心词的词类标记错误,在经过自动标注和人工校对工作后得到成分标记和关系标记准确的CCC标注块,产生了CCC块核心词词类标记与CCC成分标记或关系标记不一致的问题。本发明中,利用准确的CCC成分标记和关系标记,纠正核心词的词类标记错误,以达到词类属性的一致性。词类标记调整方法是,先利用CCC的关系标记,确定核心词的位置,再根据CCC的成分标记与核心词词类标记的映射关系,判断核心词词类标记正误,对错误的词类标记进行纠正。
对于CCC块核心词的位置,主要根据其内部关系标记的语义核心(Head)来确定。表1列出概念复合块所用的主要成分标记和关系标记集合。
表1:概念复合块的成分标记和关系标记描述
在CCC块中,概念复合块的语义主要落实在核心词上。块内的其他成分或者直接依存于该核心,起修饰和补充描述作用,成为概念复合块的附加体(Adjunct);或者与该核心不发生依存联系,直接体现出不同的句法功能,成为概念复合块的内部附加功能成分(Functional Constitution);或者是并列关系的核心词。
本发明选择构建句法二叉树的方法,将句子以二叉树结构表示。图2展示了一个句子句法二叉树的表现形式。
表2列出了CCC块基于关系标记通过对句法二叉树查找确定CCC块核心词的搜索规则。
表2:CCC核心词搜索规则
由此,可以很快确定CCC块中的核心词。
步骤3)确定所述核心词的词类;
按照汉语概念复合块标注规范,通过概念复合块成分标记与实义核心词词类标记之间的映射关系确定该核心词相应的词类标记。
表3列出了目前常用的实义词词类标记与CCC成分标记之间的映射关系。
表3:实义核心词词类标记与概念复合块成分标记之间的映射关系表
由CCC块成分标记确定核心词的词类后,即可对错误的词类标记进行纠正。
步骤4)判断所述核心词的词类的标记的正误,纠正错误标记;
错误词类标记自动纠正的算法即为:先将需处理语料中的CCC块抽出,对每个CCC块构建二叉树,由关系标记定位到实义核心词,再由CCC成分标记判定实义核心词词类标记是否正确,对错误的标记进行相应的纠正。
下面,通过一些具体实例对词类标记的纠正算法做更进一步的解释说明:
示例一:[np-AH 记录/nS 工作/v]
如图3所示为该句的句法二叉树。按照关系标记AH,搜索右孩子节点,定位到核心词“工作/v”。其中CCC块的成分标记为np,所以该CCC块为名词块,则该CCC块的核心词词类应该为名词,即词类标记为/n,/rN,/vN,/iN,/rNP。按照该块的成分标记,“工作”的词性应当为名词,则纠正错误标记为“工作/vN”。
示例二:[np-HA 能力/n 强/a]
其句法二叉树如图4所示。因关系标记HA,搜索左孩子节点,得到核心词“能力/n”,又因其CCC块的成分标记为np,则该词性标记正确无误。
在概念复合块标注过程中,需要对CCC块中嵌套的各种事件句式(EventConstruction,EC)结构,增加合适的内部特殊标记进行显示标注,便于进行后续的分类分析处理。
在CCC标注过程中,由于事件句式(EC)内部特征标记特征明显,易自动处理,为提高人工校对效率,将CCC中事件句式内部特征标记进行了缺省处理。考虑到这些特征标记在事件描述小句(Event Description Clause,EDC)内容分析中的重要作用,并为了最终能生成一致化的CCC标注结果,需要将这些缺省的信息进行自动补全处理。本发明中,按照事件句式内部特征标记的特征,制定适合的规则,对EC内部特征标记进行全自动的补充。
所述自动补充事件句式内部特征标记的过程包括以下三个步骤:
步骤A:对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤B:遍历所述句法二叉树,判断该事件句式的结构,确定其内部特征标记类型;
目前,事件句式结构与相应的事件句式内部特征标记有如下几类:
EC22:包含结构助词‘的’,中心语为体词块的定语从句变形句式,其中的定语部分主要包括以下成分结构:
单个动词、动词块vp、单句块dj,此时上次标记组合为:v|vp|dj|uJDE np;
更为复杂的复句fj和引句yj成分等,此时需处理为“mec uJDE np”结构;
EC23:修饰主体省略的定语从句变形句式,即省略主体的‘的’字结构,其中的定语部分结构基本类似上面的EC22;
EC24:定语从句中的定语由名词块或介词块充当,大多受处于中心语位置的谓词直接支配。
由以上描述,可以抽象出EC结构与其内部特征标记的映射如表4所示:
表4:EC结构与其内部特征标记映射表
本发明中,为确定事件句式的内部特征标记,先对CCC块构建句法二叉树,通过遍历句法二叉树,判断该事件句式的结构,从而确定其内部特征标记。表5列出了EC结构其句法二叉树的特点以及与其对应的内部特征标记。遍历句法二叉树,由二叉树的结构特点即可确定其内部特征标记。
表5:EC结构及其句法二叉树特点
步骤C:对符合条件的CCC块自动添加相应的内部特征标记;
确定了事件句式的内部特征标记后,对符合条件的CCC块自动添加相应的内部特征标记。
下面,通过具体实例对事件句式内部特征标记的自动补充和完善进一步的解释说明:
1)[np-AH[np-CO 既定/v 的/uJDE][np-AH 预期/vN[np-AH 行为/n 方式/n]]]
该定语从句,定语部分为单个动词v,中心语为名词块np,由其句法结构可判定其内部特征标记为EC22,则应添加标记EC22。
2)但/c 也/d 有/v[np-CO[vp-PO 呈/v[np-AH 东西/n 走向/n]]的/uJDE]
该句为主体省略的定语从句,则其内部特征标记为EC23,应添加标记EC23。
3)也/d 关系/v 到/v[np-AH[np-CO 社会/n 的/uJDE]稳定/a]
该从句中,定语由名词块np充当,中心语是单个形容词,其内部特征标记为EC24,应添加标记EC24。
汉语句子中方位词的基本功能是控制左边的补足语成分,形成一个方位短语块,主要描述事件发生的时空信息。汉语句子中时间表示词“时”的基本功能是控制左边的补足语成分形成一个时间块tp-CO,主要描述事件发生的时点或时段信息。通常,方位词控制块和时间表示词控制块需要通过其反映的时空信息的不同,分别选择成分标记tp(时间块)或sp(空间块)来标注。
当概念复合块中包含方位词时,由于方位词既可以用来描述事件发生的时间信息又可以描述事件的空间信息。在人工标注过程中,标注人员认识上的差异,会造成对时间或空间信息的判断差异,从而导致时间块和空间块的标注不一致。另外,当概念复合块中包含方位词或者时间词时,不同标注人员对块结构的分析不同,易忽视核心词,造成块的成分标记或关系标记不一致。
本发明从语言学角度分析,根据制定的具体规则,按照规则设计算法,对时间块和空间块的标注在语法层面进行标记的一致化处理。
所述时间块和空间块标记一致化处理的过程包括以下三个步骤:
步骤一:对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤二:遍历所述句法二叉树,判断时间块标记类型和空间块标记类型的正误;
步骤三:纠正错误的标记类型。具体地:
若CCC块中包含时间词,即词类标记为/t或者/nT的为时间块tp。对于实义核心词或时间块tp为核心词的,分析其与左右相邻实义词或者CCC之间的句法语义组合关系,确定概念复合块的内部关系为Head-Adjunct,从而形成tp-AH或者tp-HA。对于功能词核心,分析其控制的补足语的边界位置,并通过分析不同功能词的分布特点,从而形成tp-CO或者tp-OC。特别地,当CCC块结构为动词/v或动词块vp加方位词/f,或者单句块dj加方位词/f时,由于v,vp,dj成分描述的是一个动作发生的过程,相当于描述的是动作进行的时间信息,应当确定为时间块,并标注为tp-CO。
然而,当CCC中包含时间词时,有时会忽略核心词,将该块标注为时间块tp。此时,应正确判断核心词,并选择准确CCC成分标记。
CCC块中包含方位词时,判断方位词所描述的是时间信息还是空间信息,来确定成分标记。通常,CCC中包含表示动作的词或者词类标记为/nT的时间名词时,该块中方位词描述的是时间信息,其成分标记应判定为tp。特别的,当CCC块中包含数量词或者表明数量信息的块mp时,块中方位词描述的是空间信息,其成分标记应判定为sp。
以下实例为时间块和空间块常出现的几种标注差异:
1)[tp-CO 2000/m 南方/f]
该CCC块很明显应该是一个空间块sp。
2)[sp-CO 审美/v 上/f]
该CCC块,在语义上是表示时间,其CCC标记应该为tp-CO。
3)[sp-CO 一生/nT 中/f]
该CCC块核心词为“一生/nT”,其CCC标记应该为tp-CO。
4)[sp-CO[dj-CH-EC1[np-AH 这/rN 场/qV]挑战/v]中/f]
该CCC块中由于dj的成分描述的是一个事件的过程,则应该标记为时间块tp-CO。
5)[tp-CO 1990年/t 时/nT]
该CCC块的核心词为“时/nT”,因此,关系标记应为AH,即该CCC块应该标注为tp-AH。
6)[tp-CO 千年/t 盛典/n]
该CCC块的核心词为实义词“盛典/n”,因此,应该标记为np-AH。
7)[sp-CO 东部/f 地区/n]
该CCC块的核心词为实义词“地区/n”,其CCC标记应该为np-AH。
由以上分析,可以抽象出时间块和空间块标记的规则,表6列出了时间块和空间块的结构与其块标记的映射关系。
表6:时间块和空间块结构与其块标记映射表
对CCC块构建句法二叉树,遍历二叉树,根据上述方法判定CCC块标记,并自动调整块标记。
本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,可以进一步提高汉语语料库标注块的正确率和规范性,从而保证和提高了语料库的加工质量;解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种汉语概念复合块标注库规范化处理方法,其特征在于,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理;
所述自动调整错误词类标记的过程包括以下四个步骤:
步骤1)对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤2)搜索所述句法二叉树,确定核心词位置;
步骤3)确定所述核心词的词类;
步骤4)判断所述核心词的词类的标记的正误,纠正错误标记;
所述自动补充事件句式内部特征标记的过程包括以下三个步骤:
步骤A:对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤B:遍历所述句法二叉树,判断该事件句式的结构,确定其内部特征标记类型;
步骤C:对符合条件的CCC块自动添加相应的内部特征标记;
所述时间块和空间块标记一致化处理的过程包括以下三个步骤:
步骤一:对CCC块构建句法二叉树,将句子以二叉树结构表示;
步骤二:遍历所述句法二叉树,判断时间块标记类型和空间块标记类型的正误;
步骤三:纠正错误的标记类型。
2.根据权利要求1所述的汉语概念复合块标注库规范化处理方法,其特征在于,所述步骤4)中纠正错误标记的算法为:先将需处理语料中的CCC块抽出,对每个CCC块构建二叉树,由关系标记定位到实义核心词,再由CCC成分标记判定实义核心词词类标记是否正确,对错误的标记进行相应的纠正。
3.根据权利要求1或2所述的汉语概念复合块标注库规范化处理方法,其特征在于,所述步骤2)搜索所述句法二叉树,确定核心词位置所依据的搜索规则如下表所示:
4.根据权利要求1或2所述的汉语概念复合块标注库规范化处理方法,其特征在于,所述步骤3)确定所述核心词的词类所依据的实义核心词词类标记与概念复合块成分标记之间的映射关系表如下表所示:
CN201510863734.7A 2015-12-02 2015-12-02 一种汉语概念复合块标注库规范化处理方法 Active CN105446956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510863734.7A CN105446956B (zh) 2015-12-02 2015-12-02 一种汉语概念复合块标注库规范化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510863734.7A CN105446956B (zh) 2015-12-02 2015-12-02 一种汉语概念复合块标注库规范化处理方法

Publications (2)

Publication Number Publication Date
CN105446956A CN105446956A (zh) 2016-03-30
CN105446956B true CN105446956B (zh) 2018-08-28

Family

ID=55557171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510863734.7A Active CN105446956B (zh) 2015-12-02 2015-12-02 一种汉语概念复合块标注库规范化处理方法

Country Status (1)

Country Link
CN (1) CN105446956B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于条件随机域和语义类的中文组块分析方法;孙广路 等;《哈尔滨工业大学学报》;20110731;第43卷(第7期);全文 *
汉语基本块标注系统的内部关系分析;宇航 等;《清华大学学报(自然科学版)》;20091031;第49卷(第10期);全文 *

Also Published As

Publication number Publication date
CN105446956A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
Thompson Acquiring word-meaning mappings for natural language interfaces
WO2016127677A1 (zh) 地址结构化方法及装置
Taghizadeh et al. Automatic wordnet development for low-resource languages using cross-lingual wsd
WO2011079769A1 (zh) 机器翻译方法和系统
Lakhfif et al. A frame-based approach for capturing semantics from Arabic text for text-to-sign language MT
Chua et al. Meaning preservation in example-based machine translation with structural semantics
Li et al. Neural factoid geospatial question answering
Nguyen et al. Ripple down rules for question answering
Chakrabarti et al. Open domain question answering using web tables
Pretkalniņa et al. Universal dependency treebank for Latvian: a pilot
Yaghoobzadeh et al. ISO-TimeML event extraction in Persian text
CN105446956B (zh) 一种汉语概念复合块标注库规范化处理方法
Rauf et al. Automated grammatical error correction: A comprehensive review
Wang Drawing Tree Diagrams: Problems and Suggestions.
Kachroudi et al. Bridging the multilingualism gap in ontology alignment
He et al. [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning
Yan et al. A corpus-based approach to linguistic function
Hu et al. Exploring Discourse Structure in Document-level Machine Translation
Wing et al. Adaptation of data and models for probabilistic parsing of Portuguese
Shima et al. Complex Cross-lingual Question Answering as a Sequential Classification and Multi-Document Summarization Task.
Nguyen et al. Alignment-based annotation of proofreading texts toward professional writing assistance
Yu Research on Retrieval Method of Online English Grammar Questions Based on Natural Language Processing
Guo et al. Research on resultative/directional structures based on the corpus of international Chinese textbooks
Lauma PRETKALNINA et al. Universal Dependency Treebank for

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant