CN106202039B - 基于条件随机场的越南语组合词消歧方法 - Google Patents

基于条件随机场的越南语组合词消歧方法 Download PDF

Info

Publication number
CN106202039B
CN106202039B CN201610498880.9A CN201610498880A CN106202039B CN 106202039 B CN106202039 B CN 106202039B CN 201610498880 A CN201610498880 A CN 201610498880A CN 106202039 B CN106202039 B CN 106202039B
Authority
CN
China
Prior art keywords
vietnamese
portmanteau word
word
portmanteau
ambiguity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610498880.9A
Other languages
English (en)
Other versions
CN106202039A (zh
Inventor
郭剑毅
李佳
余正涛
毛存礼
线岩团
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201610498880.9A priority Critical patent/CN106202039B/zh
Publication of CN106202039A publication Critical patent/CN106202039A/zh
Application granted granted Critical
Publication of CN106202039B publication Critical patent/CN106202039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。本发明包括步骤:首先构建越南语组合词歧义字段库;从越南语组合词歧义字段库提取越南语组合词歧义字段特征;再建立基于条件随机场的越南语组合词歧义消歧模型;根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。本发明对越南语组合词实现了有效的消歧,为词性标注、词法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;目前没有发现越南语做相关的组合歧义消歧的研究报告,本发明取得了较好的效果。

Description

基于条件随机场的越南语组合词消歧方法
技术领域
本发明涉及基于条件随机场的越南语组合词消歧方法,属于自然语言处理技术领域。
背景技术
组合词歧义消歧逐渐成为搜索资源的热点,组合歧义给分词、实体识别、搜索引擎等应用上带来了诸多不利的影响,当进行检索时,搜索引擎会返回大量包含该检索的网页,而且这些网页可能描述多个实体,同时实体有很高的歧义性,多个实体组合一个实体或者其他组合实体名。越南语组合词歧义消歧是分词、词性标注等工作中的主要环节,同时歧义消歧可以提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,起着极其重要的作用。在各类越南语信息处理软件或者系统中,越南语组合词歧义消歧是越南语歧义消歧之中最难的工作,组合型歧义的消解需要根据字段特征、上下文信息甚至是建立一个较完善的组合词词典,组合词歧义的消解是各种语言信息处理的难中之难。
发明内容
本发明提供了基于条件随机场(CRFs)的越南语组合词消歧方法,以用于解决越南语组合词的消岐以及高精度组合词消岐的问题。
本发明的技术方案是:基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;
其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。
优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。
(1)、选取的词频特征:
如果用XY来表示组合词歧义片段,则考虑一下两类统计信息:1.X与Y的独立成词概率是否大于XY;2.XY组成词的概率是否大于X或Y。以上可以分别作为CRFs模型词频特征,分别定义如下:
表1词频特征
以上的概率统计是在已经人工标注好的8619条越南语分词句子中进行统计计算。
(2)、选取的组合词歧义的语境信息特征:
只判断当前歧义字段的词频特征可能有些片面,有时候还需要借助语境信息特征才能确定切分方案,可见组合词歧义片段的语境信息对歧义的切分有密切的关系。考虑到对歧义片段的正确切分的影响,这里只考虑与歧义字段最近的语境,也就是前一个词和后一个词。比如包含歧义的句子:“/bán nhà/ngàyqua.(昨天我已经卖掉了我的房子)”,其中歧义片段为:“bán nhà(卖出的房子)”,则它的前一个词为“(有)”,后一个词为“ngày(天)”。
(3)、选取的组合词歧义字段词内特征:
组合词歧义字段词内特征,主要是从歧义自身的形态、歧义字段的前段分量和后段分量来看的,比如歧义字段:“nhu’(所以)”,它的形态为:“11”,前段分量为“nhu’(像)”,后段分量为“(从而)”;又如:“cólà(大概)”,它的形态为:“21”,前段分量为“có(可)”,后段分量为:“(是)”;还有“uy(敌人威胁)”,它的形态为:“21”,前段分量为“uy(威胁)”,后段分量为“(敌人)”。
表2三种特征
本发明的有益效果是:
1、本发明的基于条件随机场的越南语组合词歧义消歧方法,对越南语的组合词歧义字段的消歧做了前所未有的工作,特别是人工抽取的越南语组合词,做了大量的实验前准备工作,提出的组合词歧义字段抽取方法,能有效的抽取出实验所需要的越南语组合词歧义语料,最终通过本发明提出的实验方法,能对越南语组合词进行有效的消歧;
2、本发明的基于条件随机场的越南语组合词歧义消歧方法,能对越南语组合词进行有效的消歧,提升分词、实体识别、搜索引擎等应用的准确率,同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。
附图说明
图1为本发明中的整体流程图;
图2为本发明中抽取组合词歧义字段方法的流程图;
图3为本发明中五倍交叉验证实验的结果图;
图4为本发明实施例中三种模型对比实验的结果图。
具体实施方式
实施例1:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
实施例2:如图1-4所示,基于条件随机场的越南语组合词消歧方法,本实施例与实施例1相同,其中:
优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;
其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。
实施例3:如图1-4所示,基于条件随机场的越南语组合词消歧方法,本实施例与实施例2相同,其中:
优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
实施例4:如图1-4所示,基于条件随机场的越南语组合词消歧方法,所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;之所以从越南语分词句子级语料中提取越南语组合词歧义字段,是因为组合词歧义字段,不能在其他地方获取,也没有相关资料可以拿使用,只能从越南语分词句子级语料中提取;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;来让条件随机场模型学习组合词歧义字段特征信息,得到所对应的组合词消歧模型,实现模型的自动消歧;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果。
优选地,所述步骤Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词词典;
Step1.3、然后将分词语料与越南语组合词词典进行匹配;组合词在越南语语料中是普遍存在的,很难运用现有的工具把组合词从语料中抽取出来,只有通过先建立好的越南语组合词字典与分词语料进行一一对应的匹配,才能准确的把组合词抽取出来;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词词典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;如图2所示;
Step1.5、根据取出组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段。取出组合词歧义片段词组AB前后2个词,更好的保留组合词所在语料中的语境信息,能更好的建立组合词歧义特征,使消歧结果更好;经过查询大量论文,得出取前后1个词效果不好,取前后3个词影响的因素又太多,所以取前后2个词更好;
其中,根据抽取组合词歧义字段方法,能构建出越南语字典60951条(组合词),抽取越南语组合歧义字段8619条,从而能更好的进行对越南语组合歧义消歧的下一步工作。
优选地,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告等,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
优选地,所述步骤Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。
从构建好的特征与组合词歧义字段中取出词级组合词歧义字段测试语料;这些待消歧的词最好是没有包含在训练语料当中,这样为了测试消歧模型的正确率,
正确率是评价一个模型被识别出来的正确个数与总个数的比值,可以用来衡量模型的好坏;本发明采用准确率作为对歧义模型的测评标注,准确率为正确的消歧结果。定义如下:
其中,Nr为测试语料中切分正确的歧义片段的个数,Nc为测试语料中的歧义片段总数。为了弄清楚三类特征对歧义模型的贡献程度,我们将词频特征、语境信息特征和词内特征分别作为独立特征构建CRFs模型,各个特征的贡献程度通过准确率进行比较,如表3所示。
表3三类特征分别实验
编号 特征 准确率
实验1 词频特征 69.67%
实验2 语境信息特征 57.54%
实验3 词内特征 56.37%
从表3可以看出,独立使用词频特征构建歧义模型时的准确率为69.67%,比独立使用语境信息特征高出12.13%,比独立使用词内特征高出13.30%。由此可见,两类统计信息对歧义的正确切分有巨大影响,然后是语境信息特征,最后是词内特征。
为了评估歧义模型的效果,我们将8619条歧义字段分为五份,其中一份做测试语料,另外四份作为训练语料,做五倍交叉验证实验,五倍交叉实验是实验一选取第一份为测试语料,另外四份作为训练语料;实验二选取第二份为测试语料,另外四份为训练语料;以此类推到实验五第五份为测试语料,另外四份为训练语料,然后求其平均准确率,作为歧义模型的测评结果。实验结果如图3所示。
从图3中可以看出,实验4的准确率达到了86.05%,为局部最高。对五倍交叉验证的实验结果求平均,得到歧义模型的准确率为84.79%。
目前没有发现越南语做相关的组合歧义消歧的研究报告,为了进一步评估歧义模型的效果,我们同时也用最大熵模型、支持向量机模型分别对歧义字段构建消歧模型,用最大熵模型和支持向量机模型消歧结果的平均准确率与条件随机场模型进行对比实验。实验结果如图4所示。
从图4中可以看出,条件随机场模型的消歧结果平均准确率比最大熵模型高2.11%、比支持向量机模型高出1.53%。可见条件随机场模型在组合词歧义问题上比最大熵模型和支持向量机模型的效果好。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.基于条件随机场的越南语组合词消歧方法,其特征在于:所述基于条件随机场的越南语组合词消歧方法的具体步骤如下:
Step1、首先,构建了越南语组合词字典,根据抽取组合词歧义字段方法,从越南语分词句子级语料中提取越南语组合词歧义字段,构建越南语组合词歧义字段库;
Step2、从越南语组合词歧义字段库提取越南语组合词歧义字段特征;
Step3、根据提取的越南语组合词歧义字段特征,制定条件随机场模型中所需要的基本特征模板训练样式语料;
Step4、把得到的基本特征模板训练样式语料,用条件随机场模型进行训练,得到组合词歧义消歧模型参数序列,从而建立基于条件随机场的越南语组合词歧义消歧模型;
Step5、把待消歧的越南语组合词歧义字段,放入基于条件随机场的越南语组合词歧义消歧模型中,根据组合词歧义消歧模型参数序列来对越南语组合词歧义字段进行消歧,得到最终消歧结果;
所述Step1中,抽取组合词歧义字段方法,得到越南语组合词歧义字段的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、从网站和字典中收集越南语组合词,形成越南语组合词字典;
Step1.3、然后将分词语料与越南语组合词字典进行匹配;
Step1.4、获取越南语组合词歧义片段;如果词素A和词素B都在越南语组合词字典中,并且AB组成的词也在越南语组合词字典中,则取出词组AB,词组AB的元素为越南语组合词歧义片段;
Step1.5、根据取出的组合词歧义片段提取词组AB前后2个词,拼接成组合词歧义字段;
所述Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料;
所述Step2中,提取的越南语组合词歧义字段特征包括:词频特征、语境信息特征、词内特征。
CN201610498880.9A 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法 Active CN106202039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610498880.9A CN106202039B (zh) 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610498880.9A CN106202039B (zh) 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法

Publications (2)

Publication Number Publication Date
CN106202039A CN106202039A (zh) 2016-12-07
CN106202039B true CN106202039B (zh) 2019-06-11

Family

ID=57462675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610498880.9A Active CN106202039B (zh) 2016-06-30 2016-06-30 基于条件随机场的越南语组合词消歧方法

Country Status (1)

Country Link
CN (1) CN106202039B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480128A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 中文文本的分词方法及装置
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN107894977A (zh) * 2017-11-01 2018-04-10 昆明理工大学 结合兼类词词性消歧模型和字典的越南语词性标记方法
CN110502750B (zh) * 2019-08-06 2023-08-11 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN111274806B (zh) * 2020-01-20 2020-11-06 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于CRF模型的组合型歧义消解研究;丁德鑫 等;《南京师范大学学报(工程技术版)》;20081231;第8卷(第4期);第73-75页
基于统计机器学习的中文词法分析研究;梁妍;《中国学位论文全文数据库》;20101124;正文第4页,第27-33页

Also Published As

Publication number Publication date
CN106202039A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106547739B (zh) 一种文本语义相似度分析方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN103399901B (zh) 一种关键词抽取方法
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN102831131B (zh) 构建标注网页语料库的方法及装置
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN110175585B (zh) 一种简答题自动批改系统及方法
Saloot et al. An architecture for Malay Tweet normalization
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
Dziob et al. plWordNet 4.1-a linguistically motivated, corpus-based bilingual resource
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN106202035B (zh) 基于组合方法的越南语兼类词消歧方法
Fu et al. Generating chinese named entity data from a parallel corpus
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN111259661A (zh) 一种基于商品评论的新情感词提取方法
KR20180054308A (ko) 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체
Meselhi et al. Hybrid named entity recognition-application to Arabic language
CN105138520A (zh) 一种事件触发词识别方法及装置
CN107391488A (zh) 一种最小生成树统计融合的汉语依存句法分析方法
Plamada-Onofrei et al. Apollo at semeval-2018 task 9: Detecting hypernymy relations using syntactic dependencies
Rao et al. Automatic identification of concepts and conceptual relations from patents using machine learning methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Li Jia

Inventor after: Guo Jianyi

Inventor after: Mao Cunli

Inventor after: Xian Yantuan

Inventor after: Chen Wei

Inventor before: Guo Jianyi

Inventor before: Li Jia

Inventor before: Yu Zhengtao

Inventor before: Mao Cunli

Inventor before: Xian Yantuan

Inventor before: Chen Wei

CB03 Change of inventor or designer information