CN104991890A - 一种基于汉越词对齐语料构建越南语依存树库的方法 - Google Patents
一种基于汉越词对齐语料构建越南语依存树库的方法 Download PDFInfo
- Publication number
- CN104991890A CN104991890A CN201510413781.1A CN201510413781A CN104991890A CN 104991890 A CN104991890 A CN 104991890A CN 201510413781 A CN201510413781 A CN 201510413781A CN 104991890 A CN104991890 A CN 104991890A
- Authority
- CN
- China
- Prior art keywords
- chinese
- vietnamese
- sentence
- dependency tree
- word alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013519 translation Methods 0.000 claims abstract description 9
- 239000000463 material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于汉越词对齐语料构建越南语依存树库的方法,属于自然语言处理技术领域。本发明首先构建汉越词对齐平行句对库,再构建中文依存树语料库,根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库。本发明构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;构建了双语平行依存树库语料;本发明提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;本发明提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。
Description
技术领域
本发明涉及一种基于汉越词对齐语料构建越南语依存树库的方法,属于自然语言处理技术领域。
背景技术
中国—东盟自由贸易区是世界上人口最多的自由贸易区,“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相互学习方面起到了十分重要的作用。所以,针对双语方面的研究工作就显得尤为重要。越南语和汉语的互译过程中,句法分析是十分重要的工作。越南语的结构相对比较简单,词语之间的从属关系清晰明确,所以相对于短语树的句法分析,越南语更适合采用依存树的方法进行句法分析;越南语依存标注体系和越南语依存树库的构建,已经成为整个越南语依存分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
发明内容
本发明提供了一种基于汉越词对齐语料构建越南语依存树库的方法,以用于解决现有技术对于研究越南语的依存句法分析比较困难的问题,构建越南语依存树库比较稀缺的问题,本发明构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑。
本发明基于汉越词对齐语料构建越南语依存树库的方法是这样实现的:所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;
Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
所述步骤Step1.1中,主要通过在互联网上爬取汉越平行句对、扫描书籍及文件材料以及人工翻译等方式得到汉越平行句对。
所述步骤Step2中,采用LTP语言处理平台构建了中文的依存树库。
本发明的有益效果是:
1、构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;
2、构建了双语平行依存树库语料;
3、本发明提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;
4、本发明提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。
附图说明
图1为本发明中的流程图;
图2为本发明的中文依存关系示意图;
图3为本发明越南语依存关系构建过程示意图。
具体实施方式
实施例1:如图1-3所示,一种基于汉越词对齐语料构建越南语依存树库的方法,所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;
Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
实施例2:如图1-3所示,一种基于汉越词对齐语料构建越南语依存树库的方法,所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;
Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
其中,所述步骤Step1中首先构建汉越词对齐平行句对库:
平行句对库是汉语到越南语的句对信息集合库,是构建越南语依存树库的基础。只有建设出高质量的平行句对,才能以之为基础进行信息化开发工作。平行句对库也是进行句法分析不可缺少的一个组成部分,当然也是构建越南语依存树库的重要前提,平行句对的构建决定了最后的依存树库的效果。构建汉越词对齐平行句对库具体步骤如下:
1)、首先收集汉越平行句对;
汉越平行句对的收集主要是通过网络爬取、书籍扫描以及人工翻译校正等方法实现。首先通过网络爬虫到带有双语的网站中爬取平行句对,然后再由相关专业人员进行整理。其次,再寻找相关的双语书籍扫描得到准确率高、可用度好的平行句对,然后我们再利用扫描软件将扫描得到的句对图片转化成文本,随后通过人工整理校正得到句对库。我们还利用周边从事与越南语相关工作人员提供的大量的汉语到越南语的翻译资料整理得到一部分平行句对;
2)、带有词对齐的汉越平行句对库建设;
针对已有的汉越平行句对,通过整理和去重等处理我们得到了规模大约在11000句的汉越依存平行句对库,如表1所示。主要实现思想如下:把中文句子和越南语句子进行分词标号,然后采用数据库技术建立汉语--越南语双语句对表和词对齐表,句对表中共有id(序号)、cnnumsentence(带有词汇编号的中文句子)、cnsentence(中文句子)、splitcnsentence(分词后的中文句子)、splitvnsentence(分词后的越语句子)、vnnumsentence(带有词汇编号的越语句子)、vnsentence(越语句子);cnnum中文词汇编号、cnword中文词汇、sentenceid句子编号、vnnum越南语词汇编号、vnword越南语词汇等,从而实现数据规范化管理。具体的汉越词对齐平行句对库如表2所示:
表1汉越依存平行句对库
表2汉越词对齐平行句对库
其中,所述Step2中构建中文依存树语料库:
依存关系可以用树形图来表示,表示依存关系的树形图,叫做“依存树”(dependency tree)。依存树对句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。目前已经构建了一个包含大约11000句汉语句子的依存树库,这是构建越南语依存树库的前提。主要实现思想如下:利用LTP语言处理平台训练依存树功能得到中文的依存树。具体的中文依存树如下图2所示;其中,“工作”为整句话的核心词用“ROOT”表示。“她”依存于“的”,它们之间的已存关系为右附加关系用“RAD”表示。“先生”依存于“她”,它们之间的依存关系为定中关系用“ATT”表示。“工作”依存于“先生”,它们之间的依存关系为主谓关系用“SBV”表示。“在”依存于“加拿大”,它们之间的依存关系为介宾关系用“POB”表示。“工作”依存于“在”,它们之间的依存关系为状中关系用“ADV”表示。
其中,所述步骤Step3中根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库:
中文依存树库是建设越南语依存树库的主要依据文件,该文件是一个编码格式为UTF8的文本文件,包含了全部中文句子的依存信息,是对整个中文依存树库的完整描述。越南语依存树库的建设主要思想:首先,按顺序从含有中文依存树库的文本中读取表示依存关系的信息,然后获得中文句子中的词语标号,再到越南语句子中检索到对应的越南语词语,最后将读取到的中文依存关系映射到对应的越南语词语上,重复上述操作就得到了越南语的依存树语料库。构建越南语依存树过程如下图3所示;其中,“她”对应于“先生”对应于“工作”对应于“在”对应于“加拿大”对应于“Canada”。因此中文句子中两个词之间存在的依存关系可以直接映射到越南语句子上。最后得到其中,为整句话的核心词用“ROOT”表示。依存于它们之间的依存关系为定中关系用“ATT”表示。依存于它们之间的依存关系为主谓关系用“SBV”表示。依存于它们之间的依存关系为状中关系用“ADV”表示。依存于“Canada”,它们之间的依存关系为介宾关系用“POB”表示。
采用汉语为中介构建越南语依存树库的方法使用的是11,000条汉语越南语词对齐平行句子对;汉语的依存句法分析是采用哈尔滨工业大学的LTP平台完成的,LTP工具的标注集我们按照实验的要求和越南语的特点进行了统一的改动;通过汉语—越南语的映射生成11,000条越南句子的依存树库。
同时,本文以3,000条人工标注的越南语句子为初始集,用MaltParser和MSTParser工具对其进行机器学习建模,生成依存树模型,再用生成的越南语依存树模型对越南语句子进行扩展。实验中扩展了11,000句越南语依存树库。这样,我们就有了基于统计机器学习方法生成的依存树库。使其与采用汉语为中介构建的越南语依存树库的实验方法进行比较。实验结果如表3所示。表3中可以看出,在越南语语料相对比较少的情况下,采用以汉语依存库为基础,基于规则的映射方法所生成的越南语依存树库,准确率相比采用机器学习的方法明显提高。
其中,整句依存句法分析评测指标选择:依存弧准确率(Unlabeled AttachmentScore,UAS)、标识准确率(Labeled Attachment Score,LAS)和根节点正确率(Root Accuracy,RA),定义如下:
表3其他方法和本发明方法的比较
方法 | UAS% | LAS% | RA% |
MaltParser构建的越南语依存树库 | 76.08 | 71.66 | 81.79 |
MSTParser构建的越南语依存树库 | 75.03 | 71.12 | 80.85 |
采用汉语为中介构建的越南语依存树库 | 78.93 | 74.22 | 83.32 |
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:
Step1、首先构建汉越词对齐平行句对库;
Step1.1、首先收集汉越平行句对;
Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;
Step2、构建中文依存树语料库;
Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;
Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;
Step2.3、对词性标注后的中文句子训练得到中文依存树库;
Step3、根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库;
Step3.1、建设越南语依存树库;把构建好的中文依存树语料库中的中文的依存关系通过汉越词对齐平行句对库映射到越南语的句子中去,从而得到越南语依存树库;
Step3.2、对得到的越南语依存树进行调优;把越南语依存树库构建越南语句子依存关系,再进行人工校正调整,得到最终的越南语依存树库。
2.根据权利要求1所述的基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述步骤Step1.1中,主要通过在互联网上爬取汉越平行句对、扫描书籍及文件材料以及人工翻译等方式得到汉越平行句对。
3.根据权利要求1所述的基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述步骤Step2中,采用LTP语言处理平台构建了中文的依存树库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510413781.1A CN104991890A (zh) | 2015-07-15 | 2015-07-15 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510413781.1A CN104991890A (zh) | 2015-07-15 | 2015-07-15 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104991890A true CN104991890A (zh) | 2015-10-21 |
Family
ID=54303706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510413781.1A Pending CN104991890A (zh) | 2015-07-15 | 2015-07-15 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104991890A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105446956A (zh) * | 2015-12-02 | 2016-03-30 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN105740235A (zh) * | 2016-01-29 | 2016-07-06 | 昆明理工大学 | 一种融合越南语语法特征的短语树到依存树的转换方法 |
CN105740234A (zh) * | 2016-01-29 | 2016-07-06 | 昆明理工大学 | 一种基于mst算法的越南语依存树库构建方法 |
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN107894982A (zh) * | 2017-10-25 | 2018-04-10 | 昆明理工大学 | 一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法 |
CN107894977A (zh) * | 2017-11-01 | 2018-04-10 | 昆明理工大学 | 结合兼类词词性消歧模型和字典的越南语词性标记方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN109857746A (zh) * | 2018-11-09 | 2019-06-07 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN110472047A (zh) * | 2019-07-15 | 2019-11-19 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN110489624A (zh) * | 2019-07-12 | 2019-11-22 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110502758A (zh) * | 2019-07-12 | 2019-11-26 | 昆明理工大学 | 一种基于短语的汉-越伪平行句对生成方法 |
CN110874535A (zh) * | 2018-08-28 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
CN111209754A (zh) * | 2020-02-25 | 2020-05-29 | 桂林电子科技大学 | 一种用于越南语实体识别的数据集构造方法 |
US11769007B2 (en) | 2021-05-27 | 2023-09-26 | International Business Machines Corporation | Treebank synthesis for training production parsers |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760121A (zh) * | 2012-06-28 | 2012-10-31 | 中国科学院计算技术研究所 | 依存映射方法及系统 |
US20130158975A1 (en) * | 2010-08-23 | 2013-06-20 | Sk Planet Co., Ltd. | Statistical machine translation method using dependency forest |
CN104239290A (zh) * | 2014-08-08 | 2014-12-24 | 中国科学院计算技术研究所 | 基于依存树的统计机器翻译方法及系统 |
CN104268132A (zh) * | 2014-09-11 | 2015-01-07 | 北京交通大学 | 机器翻译方法及系统 |
CN104268133A (zh) * | 2014-09-11 | 2015-01-07 | 北京交通大学 | 机器翻译方法及系统 |
-
2015
- 2015-07-15 CN CN201510413781.1A patent/CN104991890A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130158975A1 (en) * | 2010-08-23 | 2013-06-20 | Sk Planet Co., Ltd. | Statistical machine translation method using dependency forest |
CN102760121A (zh) * | 2012-06-28 | 2012-10-31 | 中国科学院计算技术研究所 | 依存映射方法及系统 |
CN104239290A (zh) * | 2014-08-08 | 2014-12-24 | 中国科学院计算技术研究所 | 基于依存树的统计机器翻译方法及系统 |
CN104268132A (zh) * | 2014-09-11 | 2015-01-07 | 北京交通大学 | 机器翻译方法及系统 |
CN104268133A (zh) * | 2014-09-11 | 2015-01-07 | 北京交通大学 | 机器翻译方法及系统 |
Non-Patent Citations (1)
Title |
---|
LUONG NGUYEN THI 等: "Building a Treebank for Vietnamese Dependency Parsing", 《2013 IEEE RIVF INTERNATIONAL CONFERENCE ON COMPUTING AND COMMUNICATION TECHNOLOGIES, RESEARCH, INNOVATION, AND VISION FOR THE FUTURE(RIVF)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105446956B (zh) * | 2015-12-02 | 2018-08-28 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN105446956A (zh) * | 2015-12-02 | 2016-03-30 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN105740235A (zh) * | 2016-01-29 | 2016-07-06 | 昆明理工大学 | 一种融合越南语语法特征的短语树到依存树的转换方法 |
CN105740234A (zh) * | 2016-01-29 | 2016-07-06 | 昆明理工大学 | 一种基于mst算法的越南语依存树库构建方法 |
CN105740235B (zh) * | 2016-01-29 | 2019-02-19 | 昆明理工大学 | 一种融合越南语语法特征的短语树到依存树的转换方法 |
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN106250367B (zh) * | 2016-07-27 | 2019-04-09 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN107894982A (zh) * | 2017-10-25 | 2018-04-10 | 昆明理工大学 | 一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法 |
CN107894977A (zh) * | 2017-11-01 | 2018-04-10 | 昆明理工大学 | 结合兼类词词性消歧模型和字典的越南语词性标记方法 |
CN110874535A (zh) * | 2018-08-28 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
CN110874535B (zh) * | 2018-08-28 | 2023-07-25 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
CN109857746B (zh) * | 2018-11-09 | 2021-05-04 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109857746A (zh) * | 2018-11-09 | 2019-06-07 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN110008467A (zh) * | 2019-03-04 | 2019-07-12 | 昆明理工大学 | 一种基于迁移学习的缅甸语依存句法分析方法 |
CN110489624A (zh) * | 2019-07-12 | 2019-11-22 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110502758A (zh) * | 2019-07-12 | 2019-11-26 | 昆明理工大学 | 一种基于短语的汉-越伪平行句对生成方法 |
CN110489624B (zh) * | 2019-07-12 | 2022-07-19 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110472047A (zh) * | 2019-07-15 | 2019-11-19 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN110472047B (zh) * | 2019-07-15 | 2022-12-13 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN111209754A (zh) * | 2020-02-25 | 2020-05-29 | 桂林电子科技大学 | 一种用于越南语实体识别的数据集构造方法 |
CN111209754B (zh) * | 2020-02-25 | 2023-06-02 | 桂林电子科技大学 | 一种用于越南语实体识别的数据集构造方法 |
US11769007B2 (en) | 2021-05-27 | 2023-09-26 | International Business Machines Corporation | Treebank synthesis for training production parsers |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104991890A (zh) | 一种基于汉越词对齐语料构建越南语依存树库的方法 | |
CN110377738A (zh) | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 | |
CN104809142A (zh) | 商标查询系统和方法 | |
CN109145190A (zh) | 一种基于神经机器翻译技术的局部引文推荐方法及系统 | |
CN105653522B (zh) | 一种针对植物领域的非分类关系识别方法 | |
CN103886080B (zh) | 一种从互联网非结构化文本提取道路交通信息方法 | |
CN102314478A (zh) | 一种患者身份识别与匹配的方法 | |
CN102253972A (zh) | 基于网络爬虫的地名数据库维护方法 | |
CN106126505A (zh) | 平行短语学习方法及装置 | |
CN110059177A (zh) | 一种基于用户画像的活动推荐方法及装置 | |
Wei et al. | Hot topics and trends in zero-energy building research—A bibliometrical analysis based on CiteSpace | |
CN106776808A (zh) | 基于人工智能的资讯数据提供方法及装置 | |
CN109446526A (zh) | 一种隐式篇章关系语料库的构建方法、装置和存储介质 | |
CN101510194A (zh) | 语句构件装置和基于语句构件的多语种专业翻译方法 | |
CN102722562A (zh) | 基于互联网的组织机构信息整合与更新方法 | |
CN103714120A (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
CN107590229A (zh) | 一种构建学习资源多标签标注模型的方法 | |
CN108319584A (zh) | 一种基于改进FP-Growth算法的微博类短文本的新词发现方法 | |
CN106897274A (zh) | 一种跨语种的点评复述方法 | |
CN105426355A (zh) | 一种音节粒度的藏语句法组块识别方法及装置 | |
CN107894977A (zh) | 结合兼类词词性消歧模型和字典的越南语词性标记方法 | |
CN112989811A (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN102184170A (zh) | 一种语素级临床汉语言解析的方法 | |
CN103020046B (zh) | 基于人名起源分类的人名音译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151021 |