CN107861947B - 一种基于跨语言资源的柬语命名实体识别的方法 - Google Patents

一种基于跨语言资源的柬语命名实体识别的方法 Download PDF

Info

Publication number
CN107861947B
CN107861947B CN201711084450.3A CN201711084450A CN107861947B CN 107861947 B CN107861947 B CN 107861947B CN 201711084450 A CN201711084450 A CN 201711084450A CN 107861947 B CN107861947 B CN 107861947B
Authority
CN
China
Prior art keywords
invitation
word
words
text
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711084450.3A
Other languages
English (en)
Other versions
CN107861947A (zh
Inventor
严馨
谢俊
郭剑毅
余正涛
线岩团
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201711084450.3A priority Critical patent/CN107861947B/zh
Publication of CN107861947A publication Critical patent/CN107861947A/zh
Application granted granted Critical
Publication of CN107861947B publication Critical patent/CN107861947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。本发明首先获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。

Description

一种基于跨语言资源的柬语命名实体识别的方法
技术领域
本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。
背景技术
命名实体识别的主要任务是识别出文本中的人名、地名、机构组织名等专有名称。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。柬埔寨语命名实体构造特点与汉语有类似的地方,除了极少量缩略词外,其余命名实体的外形与其他单词无区别,但仍存在一些线索暗示命名实体的存在,如人名地名指示词、人名或地名的指示KCC等,词性也暗示了命名实体的存在,在汉语等语言的命名实体识别中,这些特征取得了不错的效果,我们仍然沿用有效的特征。
同时和其他亚洲语言一样,柬埔寨语缺乏对命名实体识别非常有效的大写特征;对于大多数自然语言处理任务,英文具有较多的训练数据、更好的知识资源及区分度较强的特征,英文命名实体识别技术较为成熟,获得不错的效果,而在全球一体化的背景下,我们可以从纸质文本、网页及维基百科获得较多的英语与其他语言的双语平行文本,从而利用跨语言信息获得更具优势的特征来促进柬埔寨语命名实体的识别正确率。
发明内容
本发明提供了一种基于跨语言资源的柬语命名实体识别的方法,用于解决柬埔寨语命名实体的识别正确率低的问题。
本发明的技术方案是:一种基于跨语言资源的柬语命名实体识别的方法,获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。
所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本
中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),则其两词之间的相似度表示为:
Figure BDA0001459743450000021
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
Step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别。
所述步骤Step1的具体步骤如下:
Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本;
Step1.2、对上述文本依次进行过滤、去重、分词处理,得到初级语料文本、柬语单语文本语料。
所述Step2的具体步骤为:
Step2.1、利用分词工具,对获取的柬语单语文本语料进行分词、去重得到初步处理文本;
Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理,得到该文本中的每个柬语单词所对应的词向量文本。
所述步骤Step5的具体步骤为:
Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词
Figure BDA00014597434500000311
对类别y的分布如下:
Figure BDA0001459743450000031
式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,
Figure BDA0001459743450000032
表示柬语单词ui和类别为y的英语单词之间的对齐关系,
Figure BDA0001459743450000033
表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;
Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:
Figure BDA0001459743450000034
约束条件为:
Figure BDA0001459743450000035
Figure BDA0001459743450000036
Figure BDA0001459743450000037
Figure BDA0001459743450000038
其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,
Figure BDA0001459743450000039
表示柬语单词的边缘顶点集,
Figure BDA00014597434500000310
表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;
如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:
Figure BDA0001459743450000041
在满足
Figure BDA0001459743450000042
的前提下,γi(y)和κi的定义如下:
Figure BDA0001459743450000043
Figure BDA0001459743450000044
其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。
所述步骤Step6中,其中所述机器学习模型采用条件随机场CRF,运用条件随机场CRF最终得到柬语命名实体的初步识别。
本发明的有益效果是:
1、本发明提供了一种适用解决柬语的实体命名识别问题的方法,且对柬语命名实体实现了有效的识别;
2、本发明为后续的柬语的语法分析、语句分析、信息抽取、信息检索和机器翻译等工作提供了强有力的支撑。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,一种基于跨语言资源的柬语命名实体识别的方法,所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本
中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),则其两词之间的相似度表示为:
Figure BDA0001459743450000051
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
Step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别。
所述步骤Step1的具体步骤如下:
Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本;
Step1.2、对上述文本依次进行过滤、去重、分词处理,得到初级语料文本、柬语单语文本语料。
所述Step2的具体步骤为:
Step2.1、利用分词工具,对获取的柬语单语文本语料进行分词、去重得到初步处理文本;
Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理,得到该文本中的每个柬语单词所对应的词向量文本。
所述步骤Step5的具体步骤为:
Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词
Figure BDA0001459743450000061
对类别y的分布如下:
Figure BDA0001459743450000062
式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,
Figure BDA0001459743450000063
表示柬语单词ui和类别为y的英语单词之间的对齐关系,
Figure BDA0001459743450000064
表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;
Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:
Figure BDA0001459743450000065
约束条件为:
Figure BDA0001459743450000066
Figure BDA0001459743450000067
Figure BDA0001459743450000068
Figure BDA0001459743450000069
其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,
Figure BDA0001459743450000071
表示柬语单词的边缘顶点集,
Figure BDA0001459743450000072
表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;
如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:
Figure BDA0001459743450000073
在满足
Figure BDA0001459743450000074
的前提下,γi(y)和κi的定义如下:
Figure BDA0001459743450000075
Figure BDA0001459743450000076
其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。
所述步骤Step6中,其中所述机器学习模型采用条件随机场CRF,运用条件随机场CRF最终得到柬语命名实体的初步识别。
CRF条件随机场的使用中需要进行其特征函数的获取;通过跨语言的标签传播算法得到一维柬语的跨语言特征得到新的特征fi(y),设定阈值λ,λ是自定义参数,将其跨语言特征值设为qi(y),则其定义函数为:
Figure BDA0001459743450000081
最后,将获得的y∈PER、LOC、ORG、Null的类别作为柬语单词的跨语言特征,上述得到的特征fi(y)连同相似度特征、词性特征、标记特征(标记人名、地名的单词特征),一起作为特征模板使用CRF模型进行命名实体的初步识别。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种基于跨语言资源的柬语命名实体识别的方法,其特征在于:获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别;
所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2,...,win),wj=(wj1,wj2,...,wjn),则其两词之间的相似度表示为:
Figure FDA0002683111240000011
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
Step 6、将标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别;
所述步骤Step5的具体步骤为:
Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词
Figure FDA0002683111240000012
对类别y的分布如下:
Figure FDA0002683111240000021
式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,
Figure FDA0002683111240000022
表示柬语单词ui和类别为y的英语单词之间的对齐关系,
Figure FDA0002683111240000023
表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;
Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:
Figure FDA0002683111240000024
约束条件为:
Figure FDA0002683111240000025
Figure FDA0002683111240000026
Figure FDA0002683111240000027
Figure FDA0002683111240000028
其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,
Figure FDA0002683111240000029
表示柬语单词的边缘顶点集,
Figure FDA00026831112400000210
表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;wij表示柬语单语不同词之间的相似度;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;
如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:
Figure FDA0002683111240000031
在满足
Figure FDA0002683111240000032
的前提下,γi(y)和κi的定义如下:
Figure FDA0002683111240000033
Figure FDA0002683111240000034
其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。
2.根据权利要求1所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本;
Step1.2、对上述文本依次进行过滤、去重、分词处理,得到初级语料文本、柬语单语文本语料。
3.根据权利要求1所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述Step2的具体步骤为:
Step2.1、利用分词工具,对获取的柬语单语文本语料进行分词、去重得到初步处理文本;
Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理,得到该文本中的每个柬语单词所对应的词向量文本。
4.根据权利要求1所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述步骤Step 6中,其中所述机器学习模型采用条件随机场CRF,运用条件随机场CRF最终得到柬语命名实体的初步识别。
CN201711084450.3A 2017-11-07 2017-11-07 一种基于跨语言资源的柬语命名实体识别的方法 Active CN107861947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711084450.3A CN107861947B (zh) 2017-11-07 2017-11-07 一种基于跨语言资源的柬语命名实体识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711084450.3A CN107861947B (zh) 2017-11-07 2017-11-07 一种基于跨语言资源的柬语命名实体识别的方法

Publications (2)

Publication Number Publication Date
CN107861947A CN107861947A (zh) 2018-03-30
CN107861947B true CN107861947B (zh) 2021-01-05

Family

ID=61701199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711084450.3A Active CN107861947B (zh) 2017-11-07 2017-11-07 一种基于跨语言资源的柬语命名实体识别的方法

Country Status (1)

Country Link
CN (1) CN107861947B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921213B (zh) * 2018-06-28 2021-06-22 国信优易数据股份有限公司 一种实体分类模型训练方法及装置
CN109214000A (zh) * 2018-08-23 2019-01-15 昆明理工大学 一种基于主题模型词向量的神经网络柬语实体识别方法
CN109344390A (zh) * 2018-08-23 2019-02-15 昆明理工大学 一种基于多特征神经网络的柬语实体识别的方法
CN109582951B (zh) * 2018-10-19 2021-08-31 昆明理工大学 一种基于多重cca算法的柬汉双语词向量模型构建方法
CN109710923B (zh) * 2018-12-06 2020-09-01 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN110413736B (zh) * 2019-07-25 2022-02-25 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN111325235B (zh) * 2020-01-19 2023-04-25 南京师范大学 面向多语种的通用地名语义相似度计算方法及其应用
CN112765977B (zh) * 2021-01-11 2023-12-12 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Joint Word Alignment and Bilingual Named Entity Recognition Using Dual Decomposition》;Mengqiu Wang,Wangxiang Che,Christopher D.Manning;《Meeting of the Association for Computational Linguistics. 2013.》;20130831;全文 *
《No Noun Phrase Left Behind: Detecting and Typing Unlinkable Entities》;Lin T, Mausam, Etzioni O;《Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language》;20120714;第5节 *
《基于最大熵模型的英柬双语平行句对获取》;严馨,王若兰,余正涛,潘丽同,郭剑毅;《山西大学学报(自然科学版)》;20150430;全文 *

Also Published As

Publication number Publication date
CN107861947A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN107861947B (zh) 一种基于跨语言资源的柬语命名实体识别的方法
Pang et al. Text matching as image recognition
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN105068997B (zh) 平行语料的构建方法及装置
CN108021555A (zh) 一种基于深度卷积神经网络的问句相似度度量方法
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN103020167B (zh) 一种计算机中文文本分类方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN107169079A (zh) 一种基于Deepdive的领域文本知识抽取方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN110222338A (zh) 一种机构名实体识别方法
CN104572634A (zh) 一种交互式抽取可比语料与双语词典的方法及其装置
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN108491383A (zh) 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant