CN107861947A - 一种基于跨语言资源的柬语命名实体识别的方法 - Google Patents
一种基于跨语言资源的柬语命名实体识别的方法 Download PDFInfo
- Publication number
- CN107861947A CN107861947A CN201711084450.3A CN201711084450A CN107861947A CN 107861947 A CN107861947 A CN 107861947A CN 201711084450 A CN201711084450 A CN 201711084450A CN 107861947 A CN107861947 A CN 107861947A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- language
- card
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000000463 material Substances 0.000 claims abstract description 10
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 239000003550 marker Substances 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 8
- 230000008520 organization Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。本发明首先获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。
Description
技术领域
本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。
背景技术
命名实体识别的主要任务是识别出文本中的人名、地名、机构组织名等专有名称。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。柬埔寨语命名实体构造特点与汉语有类似的地方,除了极少量缩略词外,其余命名实体的外形与其他单词无区别,但仍存在一些线索暗示命名实体的存在,如人名地名指示词、人名或地名的指示KCC等,词性也暗示了命名实体的存在,在汉语等语言的命名实体识别中,这些特征取得了不错的效果,我们仍然沿用有效的特征。
同时和其他亚洲语言一样,柬埔寨语缺乏对命名实体识别非常有效的大写特征;对于大多数自然语言处理任务,英文具有较多的训练数据、更好的知识资源及区分度较强的特征,英文命名实体识别技术较为成熟,获得不错的效果,而在全球一体化的背景下,我们可以从纸质文本、网页及维基百科获得较多的英语与其他语言的双语平行文本,从而利用跨语言信息获得更具优势的特征来促进柬埔寨语命名实体的识别正确率。
发明内容
本发明提供了一种基于跨语言资源的柬语命名实体识别的方法,用于解决柬埔寨语命名实体的识别正确率低的问题。
本发明的技术方案是:一种基于跨语言资源的柬语命名实体识别的方法,获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。
所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本
中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),则其两词之间的相似度表示为:
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
Step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别。
所述步骤Step1的具体步骤如下:
Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本;
Step1.2、对上述文本依次进行过滤、去重、分词处理,得到初级语料文本、柬语单语文本语料。
所述Step2的具体步骤为:
Step2.1、利用分词工具,对获取的柬语单语文本语料进行分词、去重得到初步处理文本;
Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理,得到该文本中的每个柬语单词所对应的词向量文本。
所述步骤Step5的具体步骤为:
Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词对类别y的分布如下:
式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,表示柬语单词ui和类别为y的英语单词之间的对齐关系,表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;
Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:
约束条件为:
其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,表示柬语单词的边缘顶点集,表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;
如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:
在满足的前提下,γi(y)和κi的定义如下:
其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。
所述步骤Step6中,其中所述机器学习模型采用条件随机场CRF,运用条件随机场CRF最终得到柬语命名实体的初步识别。
本发明的有益效果是:
1、本发明提供了一种适用解决柬语的实体命名识别问题的方法,且对柬语命名实体实现了有效的识别;
2、本发明为后续的柬语的语法分析、语句分析、信息抽取、信息检索和机器翻译等工作提供了强有力的支撑。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,一种基于跨语言资源的柬语命名实体识别的方法,所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本
中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),则其两词之间的相似度表示为:
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
Step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别。
所述步骤Step1的具体步骤如下:
Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本;
Step1.2、对上述文本依次进行过滤、去重、分词处理,得到初级语料文本、柬语单语文本语料。
所述Step2的具体步骤为:
Step2.1、利用分词工具,对获取的柬语单语文本语料进行分词、去重得到初步处理文本;
Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理,得到该文本中的每个柬语单词所对应的词向量文本。
所述步骤Step5的具体步骤为:
Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词对类别y的分布如下:
式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,表示柬语单词ui和类别为y的英语单词之间的对齐关系,表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;
Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:
约束条件为:
其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,表示柬语单词的边缘顶点集,表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;
如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:
在满足的前提下,γi(y)和κi的定义如下:
其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。
所述步骤Step6中,其中所述机器学习模型采用条件随机场CRF,运用条件随机场CRF最终得到柬语命名实体的初步识别。
CRF条件随机场的使用中需要进行其特征函数的获取;通过跨语言的标签传播算法得到一维柬语的跨语言特征得到新的特征fi(y),设定阈值λ,λ是自定义参数,将其跨语言特征值设为qi(y),则其定义函数为:
最后,将获得的y∈PER、LOC、ORG、Null的类别作为柬语单词的跨语言特征,上述得到的特征fi(y)连同相似度特征、词性特征、标记特征(标记人名、地名的单词特征),一起作为特征模板使用CRF模型进行命名实体的初步识别。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种基于跨语言资源的柬语命名实体识别的方法,其特征在于:获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。
2.根据权利要求1所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述方法的具体步骤如下:
Step1、获取英柬双语平行文本语料及柬语单语文本语料;
Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理,得到该文本中的每个柬语单词所对应的词向量文本;
Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现;设柬语文档中任意两个单词的向量表示为wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),则其两词之间的相似度表示为:
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>w</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
</msub>
<msub>
<mi>w</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
<msqrt>
<mrow>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
<mo>(</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
</msqrt>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
Step4、实现柬语单词与英语单词的词对齐:使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐;
Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别;
Step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征,此外再连同词性特征、标记特征,包括标记人名、地名的单词特征一起作为特征模板,使用机器学习模型实现柬语的命名实体的初步识别,实体命名识别包括对柬语中的人名、地名、机构组织名,即PER、LOC、ORG命名实体识别进行识别。
3.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本;
Step1.2、对上述文本依次进行过滤、去重、分词处理,得到初级语料文本、柬语单语文本语料。
4.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述Step2的具体步骤为:
Step2.1、利用分词工具,对获取的柬语单语文本语料进行分词、去重得到初步处理文本;
Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理,得到该文本中的每个柬语单词所对应的词向量文本。
5.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中;即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词对类别y的分布如下:
<mrow>
<mi>&eta;</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<msub>
<mi>v</mi>
<mi>y</mi>
</msub>
</munder>
<mo>#</mo>
<mo>&lsqb;</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>&LeftRightArrow;</mo>
<msub>
<mi>v</mi>
<mi>y</mi>
</msub>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
</munder>
<munder>
<mo>&Sigma;</mo>
<msub>
<mi>v</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
</msub>
</munder>
<mo>#</mo>
<mo>&lsqb;</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>&LeftRightArrow;</mo>
<msub>
<mi>v</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>&rsqb;</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
式中ri(y)表示标记为类型y的柬语的标签分布,ui表示柬语单词,vy表示标记类别为y的英语单词,表示柬语单词ui和类别为y的英语单词之间的对齐关系,表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数,而公式中分母表示柬语单词ui在该文本中所有的对齐的次数,其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别,即PER、LOC、ORG、Null;
Step5.2、对于语料中存在的柬语与英语未对齐的单词的情况,在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行:
<mrow>
<mi>C</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>V</mi>
<mrow>
<mi>k</mi>
<mo>\</mo>
<msubsup>
<mi>V</mi>
<mi>k</mi>
<mi>l</mi>
</msubsup>
</mrow>
</msub>
</mrow>
</munder>
<mrow>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>K</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>q</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>v</mi>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>\</mo>
<msubsup>
<mi>V</mi>
<mi>k</mi>
<mi>l</mi>
</msubsup>
</mrow>
</munder>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>U</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
约束条件为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mi>y</mi>
</munder>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>&GreaterEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>y</mi>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>r</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msubsup>
<mi>V</mi>
<mi>k</mi>
<mi>l</mi>
</msubsup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>q</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>y</mi>
</munder>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
<mo>-</mo>
<msub>
<mi>q</mi>
<mi>j</mi>
</msub>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,i,j表示任意两个词的下标,ui表示柬语单词,uj表示英语单词,K(ui)表示柬语的K近邻词的集合,Vk表示柬语单词的集合,表示柬语单词的边缘顶点集,表示柬语的顶点集合,qi表示柬语顶点的标签分布,qj表示英语顶点的标签分布,ν为经验参数,用于调整对所有类别y上的均匀分布的标签的分布,U表示均匀分布;qi(y)表示标签类别为y的柬语顶点的标签分布,qj(y)表示标签类别为y的英语顶点的标签分布;wij表示柬语单语不同词之间的相似度;公式(4)表示对于任意存在某一柬语单词ui,其标签类别为y的所有柬语单词的标签分布总和等于1,其公式(7)表示对于相邻顶点中具有不同的标签分布的现象,在这里使用损失函数的平方来进行表述;
如果一个柬文单词顶点没有任何边与已标注类别的单词相连,公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的;按以下方式迭代:
在满足的前提下,γi(y)和κi的定义如下:
<mrow>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>K</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msup>
<msub>
<mi>q</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>v</mi>
<mi>U</mi>
<mrow>
<mo>(</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&kappa;</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mi>v</mi>
<mo>+</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>u</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>K</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,qi(y)表示标签类别为y的柬语顶点的标签分布,m表示迭代的次数,U(y)表示标签类别为y的均匀分布,表示当前柬语词的K近邻词语的概率根据其相似度传递给当前词,并用一个均匀分布做平滑,超参数ν表示其比例,表示当前柬语词的K近邻词语的和再加上超参数,按照上述方法重复迭代50次。
6.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法,其特征在于:所述步骤Step6中,其中所述机器学习模型采用条件随机场CRF,运用条件随机场CRF最终得到柬语命名实体的初步识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711084450.3A CN107861947B (zh) | 2017-11-07 | 2017-11-07 | 一种基于跨语言资源的柬语命名实体识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711084450.3A CN107861947B (zh) | 2017-11-07 | 2017-11-07 | 一种基于跨语言资源的柬语命名实体识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107861947A true CN107861947A (zh) | 2018-03-30 |
CN107861947B CN107861947B (zh) | 2021-01-05 |
Family
ID=61701199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711084450.3A Active CN107861947B (zh) | 2017-11-07 | 2017-11-07 | 一种基于跨语言资源的柬语命名实体识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861947B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921213A (zh) * | 2018-06-28 | 2018-11-30 | 国信优易数据有限公司 | 一种实体分类模型训练方法及装置 |
CN109214000A (zh) * | 2018-08-23 | 2019-01-15 | 昆明理工大学 | 一种基于主题模型词向量的神经网络柬语实体识别方法 |
CN109344390A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 一种基于多特征神经网络的柬语实体识别的方法 |
CN109582951A (zh) * | 2018-10-19 | 2019-04-05 | 昆明理工大学 | 一种基于多重cca算法的柬汉双语词向量模型构建方法 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
CN110413736A (zh) * | 2019-07-25 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 跨语言文本表示方法和装置 |
CN111325235A (zh) * | 2020-01-19 | 2020-06-23 | 南京师范大学 | 面向多语种的通用地名语义相似度计算方法及其应用 |
CN111353308A (zh) * | 2018-12-20 | 2020-06-30 | 北京深知无限人工智能研究院有限公司 | 命名实体识别方法、装置、服务器及存储介质 |
CN112765977A (zh) * | 2021-01-11 | 2021-05-07 | 百果园技术(新加坡)有限公司 | 一种基于跨语言数据增强的分词方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933039A (zh) * | 2015-06-04 | 2015-09-23 | 中国科学院新疆理化技术研究所 | 面向资源缺乏语言的实体链接系统 |
-
2017
- 2017-11-07 CN CN201711084450.3A patent/CN107861947B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933039A (zh) * | 2015-06-04 | 2015-09-23 | 中国科学院新疆理化技术研究所 | 面向资源缺乏语言的实体链接系统 |
Non-Patent Citations (3)
Title |
---|
LIN T, MAUSAM, ETZIONI O: "《No Noun Phrase Left Behind: Detecting and Typing Unlinkable Entities》", 《PROCEEDINGS OF THE 2012 JOINT CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND COMPUTATIONAL NATURAL LANGUAGE》 * |
MENGQIU WANG,WANGXIANG CHE,CHRISTOPHER D.MANNING: "《Joint Word Alignment and Bilingual Named Entity Recognition Using Dual Decomposition》", 《MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. 2013.》 * |
严馨,王若兰,余正涛,潘丽同,郭剑毅: "《基于最大熵模型的英柬双语平行句对获取》", 《山西大学学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921213A (zh) * | 2018-06-28 | 2018-11-30 | 国信优易数据有限公司 | 一种实体分类模型训练方法及装置 |
CN109214000A (zh) * | 2018-08-23 | 2019-01-15 | 昆明理工大学 | 一种基于主题模型词向量的神经网络柬语实体识别方法 |
CN109344390A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 一种基于多特征神经网络的柬语实体识别的方法 |
CN109582951A (zh) * | 2018-10-19 | 2019-04-05 | 昆明理工大学 | 一种基于多重cca算法的柬汉双语词向量模型构建方法 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
CN111353308A (zh) * | 2018-12-20 | 2020-06-30 | 北京深知无限人工智能研究院有限公司 | 命名实体识别方法、装置、服务器及存储介质 |
CN110413736A (zh) * | 2019-07-25 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 跨语言文本表示方法和装置 |
CN111325235A (zh) * | 2020-01-19 | 2020-06-23 | 南京师范大学 | 面向多语种的通用地名语义相似度计算方法及其应用 |
WO2021142968A1 (zh) * | 2020-01-19 | 2021-07-22 | 南京师范大学 | 面向多语种的通用地名语义相似度计算方法及其应用 |
CN111325235B (zh) * | 2020-01-19 | 2023-04-25 | 南京师范大学 | 面向多语种的通用地名语义相似度计算方法及其应用 |
CN112765977A (zh) * | 2021-01-11 | 2021-05-07 | 百果园技术(新加坡)有限公司 | 一种基于跨语言数据增强的分词方法及装置 |
CN112765977B (zh) * | 2021-01-11 | 2023-12-12 | 百果园技术(新加坡)有限公司 | 一种基于跨语言数据增强的分词方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107861947B (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861947A (zh) | 一种基于跨语言资源的柬语命名实体识别的方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN106570148A (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN104850633A (zh) | 一种基于手绘草图部件分割的三维模型检索系统及方法 | |
CN109002834A (zh) | 基于多模态表征的细粒度图像分类方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN102314417A (zh) | 基于统计模型的Web命名实体识别方法 | |
CN105550170A (zh) | 一种中文分词方法及装置 | |
CN109145260A (zh) | 一种文本信息自动提取方法 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
Rausch et al. | Docparser: Hierarchical document structure parsing from renderings | |
CN109522417A (zh) | 一种公司名的商号抽取方法 | |
CN114036303B (zh) | 一种基于双粒度注意力和对抗训练的远程监督关系抽取方法 | |
CN105068997A (zh) | 平行语料的构建方法及装置 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN106202035B (zh) | 基于组合方法的越南语兼类词消歧方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
Toyozumi et al. | A study of symbol segmentation method for handwritten mathematical formula recognition using mathematical structure information | |
Fouladi et al. | A fast and accurate contour-based method for writer-dependent offline handwritten Farsi/Arabic subwords recognition | |
CN112232681A (zh) | 一种面向计算分析类非选择题的智能评卷方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |