CN106202039A - 基于条件随机场的越南语组合词消歧方法 - Google Patents

基于条件随机场的越南语组合词消歧方法 Download PDF

Info

Publication number
CN106202039A
CN106202039A CN201610498880.9A CN201610498880A CN106202039A CN 106202039 A CN106202039 A CN 106202039A CN 201610498880 A CN201610498880 A CN 201610498880A CN 106202039 A CN106202039 A CN 106202039A
Authority
CN
China
Prior art keywords
vietnamese
portmanteau word
word
portmanteau
disambiguation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610498880.9A
Other languages
English (en)
Other versions
CN106202039B (zh
Inventor
郭剑毅
李佳
余正涛
毛存礼
线岩团
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201610498880.9A priority Critical patent/CN106202039B/zh
Publication of CN106202039A publication Critical patent/CN106202039A/zh
Application granted granted Critical
Publication of CN106202039B publication Critical patent/CN106202039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。本发明包括步骤:首先构建越南语组合词歧义字段库;从越南语组合词歧义字段库提取越南语组合词歧义字段特征;再建立基于条件随机场的越南语组合词歧义消歧模型;根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。本发明对越南语组合词实现了有效的消歧,为词性标注、词法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;目前没有发现越南语做相关的组合歧义消歧的研究报告,本发明取得了较好的效果。

Description

基于条件随机场的越南语组合词消歧方法
技术领域
本发明涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。
背景技术
组合词歧义消歧逐渐成为搜索资源的热点,组合歧义给分词、实体识别、搜索引擎等应用上带来了诸多不利的影响,当进行检索时,搜索引擎会返回大量包含该检索的网页,而且这些网页可能描述多个实体,同时实体有很高的歧义性,多个实体组合一个实体或者其他组合实体名。越南语组合词歧义消歧是分词、词性标注等工作中的主要环节,同时歧义消歧可以提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,起着极其重要的作用。在各类越南语信息处理软件或者系统中,越南语组合词歧义消歧是越南语歧义消歧之中最难的工作,组合型歧义的消解需要根据字段特征、上下文信息甚至是建立一个较完善的组合词词典,组合词歧义的消解是各种语言信息处理的难中之难。
发明内容
本发明提供了基于条件随机场(CRFs)的越南语组合词消歧方法,以用于解决越南语组合词的消岐以及高精度组合词消岐的问题。
本发明的技术方案是:基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;
其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。
优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。
(1)、选取的词频特征:
如果用XY来表示组合词歧义片段,则考虑一下两类统计信息:1.X与Y的独立成词概率是否大于XY;2.XY组成词的概率是否大于X或Y。以上可以分别作为CRFs模型词频特征,分别定义如下:
表1词频特征
以上的概率统计是在已经人工标注好的8619条越南语分词句子中进行统计计算。
(2)、选取的组合词歧义的语境信息特征:
只判断当前歧义字段的词频特征可能有些片面,有时候还需要借助语境信息特征才能确定切分方案,可见组合词歧义片段的语境信息对歧义的切分有密切的关系。考虑到对歧义片段的正确切分的影响,这里只考虑与歧义字段最近的语境,也就是前一个词和后一个词。比如包含歧义的句子:“/bán nhà/ngàyqua.(昨天我已经卖掉了我的房子)”,其中歧义片段为:“bán nhà(卖出的房子)”,则它的前一个词为“(有)”,后一个词为“ngày(天)”。
(3)、选取的组合词歧义字段词内特征:
组合词歧义字段词内特征,主要是从歧义自身的形态、歧义字段的前段分量和后段分量来看的,比如歧义字段:“nhu’(所以)”,它的形态为:“11”,前段分量为“nhu’(像)”,后段分量为“(从而)”;又如:“cólà(大概)”,它的形态为:“21”,前段分量为“có(可)”,后段分量为:“(是)”;还有“uy(敌人威胁)”,它的形态为:“21”,前段分量为“uy(威胁)”,后段分量为“(敌人)”。
表2三种特征
本发明的有益效果是:
1、本发明的基于条件随机场的越南语组合词歧义消歧方法,对越南语的组合词歧义字段的消歧做了前所未有的工作,特别是人工抽取的越南语组合词,做了大量的实验前准备工作,提出的组合词歧义字段抽取方法,能有效的抽取出实验所需要的越南语组合词歧义语料,最终通过本发明提出的实验方法,能对越南语组合词进行有效的消歧;
2、本发明的基于条件随机场的越南语组合词歧义消歧方法,能对越南语组合词进行有效的消歧,提升分词、实体识别、搜索引擎等应用的准确率,同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。
附图说明
图1为本发明中的整体流程图;
图2为本发明中抽取组合词歧义字段方法的流程图;
图3为本发明中五倍交叉验证实验的结果图;
图4为本发明实施例中三种模型对比实验的结果图。
具体实施方式
实施例1:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
实施例2:如图1-4所示,基于条件随机场的越南语组合词消歧方法,本实施例与实施例1相同,其中:
优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;
其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。
实施例3:如图1-4所示,基于条件随机场的越南语组合词消歧方法,本实施例与实施例2相同,其中:
优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
实施例4:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;如图2所示;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;
其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。
优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。
从构建好的特征与组合词歧义字段中取出词级组合词歧义字段测试语料;这些待消歧的词最好是没有包含在训练语料当中,这样为了测试消歧模型的正确率,
正确率是评价一个模型被识别出来的正确个数与总个数的比值,可以用来衡量模型的好坏;本发明采用准确率作为对歧义模型的测评标注,准确率为正确的消歧结果。定义如下:
p = N r N c × 100 %
其中,Nr为测试语料中切分正确的歧义片段的个数,Nc为测试语料中的歧义片段总数。为了弄清楚三类特征对歧义模型的贡献程度,我们将词频特征、语境信息特征和词内特征分别作为独立特征构建CRFs模型,各个特征的贡献程度通过准确率进行比较,如表3所示。
表3三类特征分别实验
编号 特征 准确率
实验1 词频特征 69.67%
实验2 语境信息特征 57.54%
实验3 词内特征 56.37%
从表3可以看出,独立使用词频特征构建歧义模型时的准确率为69.67%,比独立使用语境信息特征高出12.13%,比独立使用词内特征高出13.30%。由此可见,两类统计信息对歧义的正确切分有巨大影响,然后是语境信息特征,最后是词内特征。
为了评估歧义模型的效果,我们将8619条歧义字段分为五份,其中一份做测试语料,另外四份作为训练语料,做五倍交叉验证实验,五倍交叉实验是实验一选取第一份为测试语料,另外四份作为训练语料;实验二选取第二份为测试语料,另外四份为训练语料;以此类推到实验五第五份为测试语料,另外四份为训练语料,然后求其平均准确率,作为歧义模型的测评结果。实验结果如图3所示。
从图3中可以看出,实验4的准确率达到了86.05%,为局部最高。对五倍交叉验证的实验结果求平均,得到歧义模型的准确率为84.79%。
目前没有发现越南语做相关的组合歧义消歧的研究报告,为了进一步评估歧义模型的效果,我们同时也用最大熵模型、支持向量机模型分别对歧义字段构建消歧模型,用最大熵模型和支持向量机模型消歧结果的平均准确率与条件随机场模型进行对比实验。实验结果如图4所示。
从图4中可以看出,条件随机场模型的消歧结果平均准确率比最大熵模型高2.11%、比支持向量机模型高出1.53%。可见条件随机场模型在组合词歧义问题上比最大熵模型和支持向量机模型的效果好。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于条件随机场的越南语组合词消歧方法,其特征在于:所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
2.根据权利要求1所述的基于条件随机场的越南语组合词消歧方法,其特征在于:所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。
3.根据权利要求2所述的基于条件随机场的越南语组合词消歧方法,其特征在于:所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
4.根据权利要求1所述的基于条件随机场的越南语组合词消歧方法,其特征在于:所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。
CN201610498880.9A 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法 Active CN106202039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610498880.9A CN106202039B (zh) 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610498880.9A CN106202039B (zh) 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法

Publications (2)

Publication Number Publication Date
CN106202039A true CN106202039A (zh) 2016-12-07
CN106202039B CN106202039B (zh) 2019-06-11

Family

ID=57462675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610498880.9A Active CN106202039B (zh) 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法

Country Status (1)

Country Link
CN (1) CN106202039B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480128A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 中文文本的分词方法及装置
CN107894977A (zh) * 2017-11-01 2018-04-10 昆明理工大学 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN110502750A (zh) * 2019-08-06 2019-11-26 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN111274806A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法
US20160132492A1 (en) * 2010-11-22 2016-05-12 Alibaba Group Holding Limited Text segmentation with multiple granularity levels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132492A1 (en) * 2010-11-22 2016-05-12 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁德鑫 等: "基于CRF模型的组合型歧义消解研究", 《南京师范大学学报(工程技术版)》 *
梁妍: "基于统计机器学习的中文词法分析研究", 《中国学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480128A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 中文文本的分词方法及装置
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN107894977A (zh) * 2017-11-01 2018-04-10 昆明理工大学 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN110502750A (zh) * 2019-08-06 2019-11-26 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN110502750B (zh) * 2019-08-06 2023-08-11 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN111274806A (zh) * 2020-01-20 2020-06-12 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置
CN111274806B (zh) * 2020-01-20 2020-11-06 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置

Also Published As

Publication number Publication date
CN106202039B (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
Bouamor et al. The MADAR Arabic dialect corpus and lexicon
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103399901B (zh) 一种关键词抽取方法
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN106202039A (zh) 基于条件随机场的越南语组合词消歧方法
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN103473280A (zh) 一种网络可比语料的挖掘方法及装置
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN105608070A (zh) 一种面向新闻标题的人物关系抽取方法
CN106776560A (zh) 一种柬埔寨语组织机构名识别方法
CN107797994A (zh) 基于约束条件随机场的越南语名词组块识别方法
CN106202035B (zh) 基于组合方法的越南语兼类词消歧方法
CN106202255A (zh) 融合实体特性的越南语命名实体识别方法
CN105740233A (zh) 一种基于条件随机场和转换学习越南语组块方法
CN108268669A (zh) 一种基于多维词句特征和情感分析的关键新词发现方法
CN103970732B (zh) 新词译文的挖掘方法和装置
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN104572636A (zh) 一种调序模型建立方法、装置及翻译方法
Belz et al. Extracting parallel fragments from comparable corpora for data-to-text generation
CN108776656A (zh) 基于条件随机场的食品安全事件实体抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Li Jia

Inventor after: Guo Jianyi

Inventor after: Mao Cunli

Inventor after: Xian Yantuan

Inventor after: Chen Wei

Inventor before: Guo Jianyi

Inventor before: Li Jia

Inventor before: Yu Zhengtao

Inventor before: Mao Cunli

Inventor before: Xian Yantuan

Inventor before: Chen Wei