CN105955955A - 一种基于纠错输出编码的无需消歧的无监督词性标注方法 - Google Patents

一种基于纠错输出编码的无需消歧的无监督词性标注方法 Download PDF

Info

Publication number
CN105955955A
CN105955955A CN201610292680.8A CN201610292680A CN105955955A CN 105955955 A CN105955955 A CN 105955955A CN 201610292680 A CN201610292680 A CN 201610292680A CN 105955955 A CN105955955 A CN 105955955A
Authority
CN
China
Prior art keywords
word
speech
speech tagging
disambiguation
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610292680.8A
Other languages
English (en)
Other versions
CN105955955B (zh
Inventor
周德宇
徐海洋
张致恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610292680.8A priority Critical patent/CN105955955B/zh
Publication of CN105955955A publication Critical patent/CN105955955A/zh
Application granted granted Critical
Publication of CN105955955B publication Critical patent/CN105955955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于纠错输出编码的无需消歧的无监督词性标注方法,包括两个主要步骤:(1)基于词性字典生成训练数据。(2)基于纠错输出编码进行训练与测试。本发明不需标注语料,可以应用于不易获得标注语料的语言的词性标注问题;不需消歧,避免了迭代式消歧过程中的错误传播问题;采用神经语言模型自动生成训练和测试使用的特征,避免了手动选取和构建特征。

Description

一种基于纠错输出编码的无需消歧的无监督词性标注方法
技术领域
本发明涉及利用计算机对文本进行词性标注的方法,属于信息处理技术领域。
背景技术
目前尚未发现基于纠错输出编码(Error-Correcting Output Codes,ECOC)、自动生成训练与测试特征的无监督的词性标注方法,但存在手动生成训练和测试特征的无监督词性标注方法。也存在基于自动生成训练和测试特征的有监督的词性标注方法,而本方法与这些方法完全不同。
词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或者简称标注,是指为句子中的每个单词标注一个正确的词性,即确定每个单词是名词、动词、形容词或其他词性的过程。正确的词性标注对于自动的自然语言处理具有重要意义。第一,它提供了单词及其邻近成分的关键信息。例如主有代词(my,your,his,her,its)和人称代词(I,you,she,he)。如果知道一个词是主有代词还是人称代词,就能知道什么词会出现在它的近邻(主有代词后面大多会出现名词,人称代词后面大多会出现动词),这些信息在语音识别的语言模型中非常有用;第二,词性能提供单词的发音信息,比如单词exercise既可以是名词,也可以是动词,但是发音是用区别的,因此,如果知道单词的词性,就能够更精确的进行语音识别,第三,词性标注对于信息抽取非常有用,如果我们能够知道单词的词性,我们就能快速的从文本中抽取重要的信息,比如对于一篇文章而言,动词和名词的重要性显然高于介词,代词。
当前的词性标注使用了多种技术方法,包括基于规则匹配的和基于机器学习的方法。规则匹配方法能准确地描述词性搭配之间的确定现象,然而规则的语言覆盖有限,庞大的规则库的编写和维护工作过于繁重。机器学习方法则考虑了词性之间的依存关系,可以覆盖大部分的语言现象。然而,上述两类方法要么基于大量的人工标注的语料要么基于庞大的专家规则库。对于某些少数民族语言,由于缺乏大量的标注语料、缺少专门的研究人员,上述方法很难应用。因此,基于词性字典进行词性标注,如下表一所示,具有很好的实用性,能够解决不易获得标注语料库的语言的词性标注问题。
表一,基于词性字典的意大利语词性标注
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于纠错输出编码的无需消歧的无监督词性标注方法,该方法能够解决不易获得标注语料的语言的词性标注问题的方法框架,来实现词性标注,以及便于一系列后续应用(如命名实体识别、信息抽取)的开展。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于纠错输出编码的无需消歧的无监督词性标注方法,包括以下步骤:
步骤1,将无标记的语料库U中的每个单词ωi通过基于神经语言模型转化为一个特征向量,其中,i=1…n,n为语料库U单词的个数。将每个单词ωi的特征向量以及其相邻单词的特征向量一起形成该单词的上下文特征φ(ωi)。从词性词典D中获取每个单词的候选标记集合将每个单词ωi,其上下文特征φ(ωi)以及该单词的候选词性集合构成训练数据集T中的一个训练样本
步骤2,在基于ECOC进行训练与测试编码阶段中,构造一个|O|×L的编码矩阵M∈{+1,-1}|O|×L,其中,O表示词性标记列表,|O|表示不同的词性标记的个数,L表示编码长度。编码矩阵中的第j行M(j,:)表示标记类yj的L位的编码。编码矩阵的第l列M(:,l)指定了标记空间y的划分,即以及
通过把来自的样本作为正类样本,来自的样本作为负类样本为编码矩阵的每一列构建一个二类分类器。对训练数据集T中的一个训练样本在构建一个二类分类器hl时,仅当全部落入中时,该训练样本才被视为一个正类的或负类的训练样本。否则,将不会参与hl的训练过程。
步骤3,将待测试数据中的每个待测单词ω*通过基于神经语言模型转化为一个特征向量,进而得到每个待测单词的上下文特征φ(ω*)。将得到的上下文特征φ(ω*)根据其编码长度和步骤3得到的分类器进行编码分类,生成相应编码h(ω*):
步骤4,将待测试数据中的待测单词ω*从词性词典D中获取其对应的候选标记集合将待测单词ω*的选标记集合中的每个词性的编码与步骤3得到的编码h(ω*)的距离最小的词性作为单词ω*的最终预测结果。
优选的:所述步骤1中神经语言模型通过区别正确和不正确的短语来学习单词的特征表示。获取无标记语料库训练样本Q,在无标记语料库训练样本Q中获取一个窗口大小为d的单词序列p=(w1,w2,…,wd)。该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列pr,其中pr表示把单词序列p的中间单词替换为r后的单词序列,r表示中间单词替换词,该模型的目标函数就是最小化与参数θ相关的排序损失:
其中,p是无标记语料库训练样本Q中所有的长度为d的单词序列,是单词词典,fθ(p)是p的得分,无标记语料库训练样本Q中所有的单词序列用于学习该语言模型。正例是语料库Q中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。
优选的:所述步骤3中待测单词ω*通过分类器进行编码分类,生成相应编码h(ω*):
h(ω*)=[h1*),h2*),…,hL*)]T
其中,L表示编码长度,h(ω*)表示待测单词ω*编码长度为L的编码,h1*),h2*),…,hL*)表示确定的L个分类器生成的相应编码。
优选的:所述步骤3中将待测单词ω*的选标记集合中的每个词性的编码与步骤4得到的编码h(ω*)的距离最小的词性作为单词ω*的最终预测结果的方法:
g ( ω * ) = arg min y j ( 1 ≤ j ≤ | O | ) a n d y j ∈ A ω * d i s t ( h ( ω * ) , M ( j , : ) )
其中,dist(,)表示距离函数。
优选的:所述距离函数dist(,)在意大利词性标注上采用逆海明距离。
有益效果:本发明提供的基于纠错输出编码的无需消歧的无监督词性标注方法,相比现有技术,具有以下有益效果:
本发明不需标注语料,可以应用于不易获得标注语料的语言的词性标注问题;不需消歧,避免了迭代式消歧过程中的错误传播问题;采用神经语言模型自动生成训练和测试使用的特征,避免了手动选取和构建特征,因此本发明能够解决不易获得标注语料的语言的词性标注问题的方法框架,来实现词性标注,以及便于一系列后续应用(如命名实体识别、信息抽取)的开展。
附图说明
图1是本发明实施的方法流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于纠错输出编码的无需消歧的无监督词性标注方法,如图1所示,该方法包含基于词性字典生成训练数据以及基于ECOC进行训练与测试两个步骤。
问题可以描述如下:用O表示词性标记列表,D表示单词与其候选词性组成的词典,即词性字典,无监督词性标注的任务就是基于词性字典D,预测一个句子中给定的单词ω的词性标记。在下面的叙述中标记和词性会交替使用,具有相同的含义。
一、生成训练数据
步骤1,将无标记的语料库U中的每个单词ωi通过基于神经语言模型转化为一个特征向量,其中,i=1…n,n为语料库U单词的个数。将每个单词ωi的特征向量以及其相邻单词的特征向量一起形成该单词的上下文特征φ(ωi)。从词性词典D中获取每个单词的候选标记集合将每个单词ωi,其上下文特征φ(ωi)以及该单词的候选词性集合构成训练数据集T中的一个训练样本
神经语言模型通过区别正确和不正确的短语来学习单词的特征表示。获取无标记语料库训练样本Q,在无标记语料库训练样本Q中获取一个窗口大小为d的单词序列p=(w1,w2,…,wd)。该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列pr,其中pr表示把单词序列p的中间单词替换为r后的单词序列,r表示中间单词替换词,该模型的目标函数就是最小化与参数θ相关的排序损失:
其中,p是无标记语料库训练样本Q中所有的长度为d的单词序列,是单词词典,fθ(p)是p的得分,得分是在0-1之间,正常的单词序列趋向于1,随机的单词序列趋向于0。无标记语料库训练样本Q中所有的单词序列用于学习该语言模型。正例是语料库Q中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。
二、在基于ECOC进行训练与测试步骤中,ECOC通过编码解码过程来利用多个二类分类器来解决多类分类问题。
步骤2,在基于ECOC进行训练与测试编码阶段中,构造一个|O|×L的编码矩阵M∈{+1,-1}|O|×L,其中,O表示词性标记列表,|O|表示不同的词性标记的个数,L表示编码长度。编码矩阵中的第j行M(j,:)表示标记类yj的L位的编码。编码矩阵的第l列M(:,l)指定了标记空间y的划分,即以及
通过把来自的样本作为正类样本,来自的样本作为负类样本为编码矩阵的每一列构建一个二类分类器。对训练数据集T中的一个训练样本在构建一个二类分类器hl时,仅当全部落入中时,该训练样本才被视为一个正类的或负类的训练样本。否则,将不会参与hl的训练过程。
步骤3,将待测试数据中的每个待测单词ω*通过基于神经语言模型转化为一个特征向量,进而得到每个待测单词的上下文特征φ(ω*)。将得到的上下文特征φ(ω*)根据其编码长度和步骤2得到的分类器进行编码分类,生成相应编码h(ω*):
h(ω*)=[h1*),h2*),…,hL*)]T
其中,L表示编码长度,h(ω*)表示待测单词ω*编码长度为L的编码,h1*),h2*),…,hL*)表示确定的L个分类器生成的相应编码。
步骤4,将待测试数据中的待测单词ω*从词性词典D中获取其对应的候选标记集合将待测单词ω*的选标记集合中的每个词性的编码与步骤3得到的编码h(ω*)的距离最小的词性作为单词ω*的最终预测结果。
g ( ω * ) = arg min y j ( 1 ≤ j ≤ | O | ) a n d y j ∈ A ω * d i s t ( h ( ω * ) , M ( j , : ) )
其中,dist(,)表示距离函数。
距离函数dist(,)有多种不同实现,本发明在意大利词性标注上采用了逆海明距离。逆海明距离定义为max(Δ-1DT),其中Δ(i1,i2)=海明距离(yi1,yi2),D是x和y的解码向量。x,y表示不同的待测单词。
基于ECOC的无监督的词性标注算法流程如下:
输入:词性的列表O,单词与其候选词性组成的词性字典D,由句子组成的无标注的语料U,单词与其词向量组成的列表G,ECOC编码长度L,用于ECOC训练的二类分类器控制二类分类器训练集大小的阈值thr,用于测试的给定句子中的一个单词ω*
输出:ω*的预测词性标记。
Step1:训练数据设置
Step2:编码
Step3:解码
如Step1描述,生成ω*的特征φ(ω*);
根据二类分类器输出生成编码h(φ(ω*));
计算
y * = g ( φ ( ω * ) ) = argmin y j ( 1 ≤ j ≤ | O | ) a n d y j ∈ A ω * d i s t ( h ( φ ( ω * ) ) , M ( j , : ) )
并返回y*
本发明在实验过程中,使用libsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)作为分类器,参数设置如下:编码长度L为10log2(|O|),O为标记空间的长度,阈值thr设置为U为数据集中单词的个数。本发明提出的基于ECOC的无监督词性标注方法,在意大利语数据集CCG-TUT上,准确率达到90.9%,性能均优于其他现有的无监督方法。
本发明提出的基于纠错输出编码的无监督词性标注方法,可以解决不易获得标注语料的语言的词性标注问题,有利于一系列自然语言处理相关应用的展开。与已有的无监督的词性标注方法相比,本发明提出的方法基于ECOC,避免了消歧,也就避免了迭代式消歧过程中的错误传播问题。此外,本发明提出的方法中训练和测试使用的特征均采用神经语言模型自动生成,而已有的大部分方法往往是手动选取特征。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于纠错输出编码的无需消歧的无监督词性标注方法,其特征在于,包括以下步骤:
步骤1,将无标记的语料库U中的每个单词ωi通过基于神经语言模型转化为一个特征向量,其中,i=1…n,n为语料库U单词的个数;将每个单词ωi的特征向量以及其相邻单词的特征向量一起形成该单词的上下文特征φ(ωi);从词性词典D中获取每个单词的候选标记集合将每个单词ωi、其上下文特征φ(ωi)以及该单词的候选词性集合构成训练数据集T中的一个训练样本
步骤2,在基于纠错输出编码进行训练与测试编码阶段中,构造一个|O|×L的编码矩阵M∈{+1,-1}|O|×L,其中,O表示词性标记列表,|O|表示不同的词性标记的个数,L表示编码长度;编码矩阵中的第j行M(j,:)表示标记类yj的L位的编码;编码矩阵的第l列M(:,l)指定了标记空间y的划分,即以及
通过把来自的样本作为正类样本,来自的样本作为负类样本为编码矩阵的每一列构建一个二类分类器;对训练数据集T中的一个训练样本在构建一个二类分类器hl时,仅当全部落入中时,该训练样本才被视为一个正类的或负类的训练样本;否则,将不会参与hl的训练过程;
步骤3,将待测试数据中的每个待测单词ω*通过基于神经语言模型转化为一个特征向量,进而得到每个待测单词的上下文特征φ(ω*);将得到的上下文特征φ(ω*)根据其编码长度和步骤2得到的分类器进行编码分类,生成相应编码h(ω*):
步骤4,将待测试数据中的待测单词ω*从词性词典D中获取其对应的候选标记集合将待测单词ω*的选标记集合中的每个词性的编码与步骤3得到的编码h(ω*)的距离最小的词性作为单词ω*的最终预测结果。
2.根据权利要求1所述的基于纠错输出编码的无需消歧的无监督词性标注方法,其特征在于:所述步骤1中神经语言模型通过区别正确和不正确的短语来学习单词的特征表示;获取无标记语料库训练样本Q,在无标记语料库训练样本Q中获取一个窗口大小为d的单词序列p=(w1,w2,…,wd);该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列pr,其中pr表示把单词序列p的中间单词替换为r后的单词序列,r表示中间单词替换词,该模型的目标函数就是最小化与参数θ相关的排序损失:
其中,p是无标记语料库训练样本Q中所有的长度为d的单词序列,是单词词典,fθ(p)是p的得分,无标记语料库训练样本Q中所有的单词序列用于学习该语言模型;正例是语料库U中的单词序列,负例是把这些单词序列的中心词替换为随机词的结果。
3.根据权利要求1所述的基于纠错输出编码的无需消歧的无监督词性标注方法,其特征在于:所述步骤3中待测单词ω*通过分类器进行编码分类,生成相应编码h(ω*):
h(ω*)=[h1*),h2*),…,hL*)]T
其中,L表示编码长度,h(ω*)表示待测单词ω*编码长度为L的编码,h1*),h2*),…,hL*)表示确定的L个分类器生成的相应编码。
4.根据权利要求1所述的基于纠错输出编码的无需消歧的无监督词性标注方法,其特征在于:所述步骤4中将待测单词ω*的选标记集合中的每个词性的编码与步骤3得到的编码h(ω*)的距离最小的词性作为单词ω*的最终预测结果的方法:
g ( ω * ) = arg min y j ( 1 ≤ j ≤ | O | ) andy j ∈ A ω * d i s t ( h ( ω * ) , M ( j , : ) )
其中,dist(,)表示距离函数。
5.根据权利要求1至4任一所述的基于纠错输出编码的无需消歧的无监督词性标注方法,其特征在于:所述距离函数dist(,)在意大利词性标注上采用逆海明距离;逆海明距离为max(Δ-1DT),其中,Δ(i1,i2)=海明距离(yi1,yi2),D是x和y的解码向量,x,y表示不同的待测单词。
CN201610292680.8A 2016-05-05 2016-05-05 一种基于纠错输出编码的无需消歧的无监督词性标注方法 Active CN105955955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610292680.8A CN105955955B (zh) 2016-05-05 2016-05-05 一种基于纠错输出编码的无需消歧的无监督词性标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610292680.8A CN105955955B (zh) 2016-05-05 2016-05-05 一种基于纠错输出编码的无需消歧的无监督词性标注方法

Publications (2)

Publication Number Publication Date
CN105955955A true CN105955955A (zh) 2016-09-21
CN105955955B CN105955955B (zh) 2018-08-28

Family

ID=56914302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610292680.8A Active CN105955955B (zh) 2016-05-05 2016-05-05 一种基于纠错输出编码的无需消歧的无监督词性标注方法

Country Status (1)

Country Link
CN (1) CN105955955B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN109271630A (zh) * 2018-09-11 2019-01-25 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109344406A (zh) * 2018-09-30 2019-02-15 阿里巴巴集团控股有限公司 词性标注方法、装置和电子设备
WO2019043540A1 (en) * 2017-08-29 2019-03-07 International Business Machines Corporation LEARNING REPRESENTATION OF TEXT DATA BY INCORPORATION OF RANDOM DOCUMENTS
CN111209399A (zh) * 2020-01-02 2020-05-29 联想(北京)有限公司 文本分类方法、装置和电子设备
CN112507705A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备
CN112560920A (zh) * 2020-12-10 2021-03-26 厦门大学 一种基于自适应纠错输出编码的机器学习分类方法
CN115512529A (zh) * 2021-06-23 2022-12-23 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN103530283A (zh) * 2013-10-25 2014-01-22 苏州大学 情绪触发事件的抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
JP2010250814A (ja) * 2009-04-14 2010-11-04 Nec (China) Co Ltd 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN103530283A (zh) * 2013-10-25 2014-01-22 苏州大学 情绪触发事件的抽取方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN107133220B (zh) * 2017-06-07 2020-11-24 东南大学 一种地理学科领域命名实体识别方法
WO2019043540A1 (en) * 2017-08-29 2019-03-07 International Business Machines Corporation LEARNING REPRESENTATION OF TEXT DATA BY INCORPORATION OF RANDOM DOCUMENTS
GB2578711A (en) * 2017-08-29 2020-05-20 Ibm Text data representation learning using random document embedding
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
CN109271630A (zh) * 2018-09-11 2019-01-25 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN109344406A (zh) * 2018-09-30 2019-02-15 阿里巴巴集团控股有限公司 词性标注方法、装置和电子设备
CN111209399A (zh) * 2020-01-02 2020-05-29 联想(北京)有限公司 文本分类方法、装置和电子设备
CN112560920A (zh) * 2020-12-10 2021-03-26 厦门大学 一种基于自适应纠错输出编码的机器学习分类方法
CN112560920B (zh) * 2020-12-10 2022-09-06 厦门大学 一种基于自适应纠错输出编码的机器学习分类方法
CN112507705A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备
CN112507705B (zh) * 2020-12-21 2023-11-14 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备
CN115512529A (zh) * 2021-06-23 2022-12-23 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统
CN115512529B (zh) * 2021-06-23 2024-03-05 中国石油化工股份有限公司 承包商问题预警方法、预警装置及预警系统

Also Published As

Publication number Publication date
CN105955955B (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN105955955B (zh) 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
Lee et al. English to Korean statistical transliteration for information retrieval
CN108132932B (zh) 带有复制机制的神经机器翻译方法
Xu et al. A deep neural network approach for sentence boundary detection in broadcast news.
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN103853710A (zh) 一种基于协同训练的双语命名实体识别方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
Li et al. Improving text normalization using character-blocks based models and system combination
Namysl et al. NAT: Noise-aware training for robust neural sequence labeling
CN113609840B (zh) 一种汉语法律判决摘要生成方法及系统
Jibril et al. Anec: An amharic named entity corpus and transformer based recognizer
Li et al. Contextual post-processing based on the confusion matrix in offline handwritten Chinese script recognition
Boldsen et al. Interpreting character embeddings with perceptual representations: The case of shape, sound, and color
CN116049349B (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法
Dutta Word-level language identification using subword embeddings for code-mixed Bangla-English social media data
Kang et al. Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
Deschacht et al. Efficient hierarchical entity classifier using conditional random fields
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models
Yadav et al. Different Models of Transliteration-A Comprehensive Review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant