CN103678272A - 汉语依存树库中未登录词的处理方法 - Google Patents

汉语依存树库中未登录词的处理方法 Download PDF

Info

Publication number
CN103678272A
CN103678272A CN201210344884.3A CN201210344884A CN103678272A CN 103678272 A CN103678272 A CN 103678272A CN 201210344884 A CN201210344884 A CN 201210344884A CN 103678272 A CN103678272 A CN 103678272A
Authority
CN
China
Prior art keywords
word
chinese
words
unregistered word
treebank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210344884.3A
Other languages
English (en)
Other versions
CN103678272B (zh
Inventor
吕学强
郑略省
王玥
关晓炟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201210344884.3A priority Critical patent/CN103678272B/zh
Publication of CN103678272A publication Critical patent/CN103678272A/zh
Application granted granted Critical
Publication of CN103678272B publication Critical patent/CN103678272B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于计算语言学的自然语言处理领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时,抽取所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对<词性,词性>回升到<词性,词>或<词,词性>,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。

Description

汉语依存树库中未登录词的处理方法
技术领域
本发明涉及一种对汉语依存语法树库中未登录词的处理方法,通过树库已知词实现对未登录词的理解,属于计算语言学中的自然语言处理领域。
背景技术
句法分析是自然语言处理的核心问题之一,其性能的好坏,直接影响到自然语言句子自动理解的正确性和有效性。依存句法分析比结构化句法分析更容易处理,近年来受到了人们的广泛关注。目前许多国家正建立和发展自己语言的树库,随着词汇本身强大的排歧能力渐渐被挖掘出来,越来越多的依存句法分析统计模型趋于词汇化。
词汇是最有区别力的信息,语言在词汇层面几乎没有歧义。词汇以及词汇之间的依存,包含着极丰富的表征信息,这使得越来越多的句法分析器趋向于词汇化。但词汇化建模中存在的难点是词汇信息的数据稀疏问题,目前主要采用词性信息进行平滑,如将词单元对<词,词>回退为<词,词性>、<词性,词>、<词性,词性>。但由于词性标记的数量少,信息粒度较粗,不可避免地会产生大量的句法歧义。
现有树库规模较小,实际应用中存在大量未在树库中出现的词汇,也即未登录词。这使得依存句法分析无法利用这些词的词汇信息,从而降低句法分析的精确度,严重阻碍了句法分析的发展。目前在英文方面主要趋向两种方式解决未登录词问题:花费大量人力、物力扩大树库规模;利用现有资源,实现同一类别词汇相互间的映射转换。在中文方面主要采用词性信息平滑技术,但存在信息粒度粗,句法歧义大的缺陷。因此,迫切地需要一种针对汉语特点的树库未登录词处理方法,以解决树库中数据稀疏和信息粒度粗的问题,提高句法分析精确度。
发明内容
为了解决依存句法分析中树库数据稀疏问题以及采用词性信息平滑带来的信息粒度粗等问题,本发明提供了一种汉语依存树库中未登录词的处理方法,实现树库未登录词与已知词的映射转换,在不扩大数据规模的情况下,令单元对<词性,词性>可以回升到<词性,词>或<词,词性>,以细化信息粒度,缓解数据稀疏问题,改进依存句法分析的性能。
为了达到上述目的,本发明提供一种依存树库中未登录词的处理方法,具体步骤包括:
A、利用同义词词林,查找未登录词的所有同义词;
B、根据汉语字形特征,设计词语之间的字形相似度计算模型,计算未登录词及其所有同义词之间的字形相似度;
C、对于未登录词存在多个同义词与之映射时,抽取所映射的词及其对应词性的信息量,改进字形相似度计算模型;
D、根据字形相似度,抽取最优映射词。
其中,步骤A具体为:根据哈工大信息检索研究室《同义词词林》扩展版的编码方式,抽取与未登录词5层编码均相等的所有词汇,作为同义词。
步骤B,利用汉字是象形文字,其字形和字义的联系密切的特点。同时,汉字字库相对比较稳定,构词频率高的常用字约3,000字,总数也就2万多个字,绝大多数的新词也是由现有的字库组成的。因此将全体汉字用一个向量表示,向量的维数即为全体汉字数目,向量的值或者说权重为某一特定单元中汉字出现的次数;
设n为全体汉字字数,sw表示单个汉字,则全体汉字的向量表示: (sw1,sw2,…,swn)。
为此,词汇的字形相似度计算模型:
CoSim ( uw i , w j ) = g ( uw i , w j ) * &Sigma; k = 1 n C ik * C jk &Sigma; k = 1 n C ik 2 &Sigma; k = 1 n C jk 2
Figure BDA0000214663862
其中,uwi代表未登录词,wj代表与未登录词uwi在同义词词林中5层编码均相等的词汇,n为全体汉字组成的向量的维数。Cik表示未登录词uwi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频次。
步骤C,由于已知词在树库中出现的频度,是影响分析器学习该词句法信息的一个重要因素,通常频度越高其句法信息越充分,而映射词与已知词能发生映射的前提条件是词性相同,因此当某个未登录词与多个已知词存在关系时,引入词的频度来调整字形相似度计算。对字形相似度进行改进:
FinalSim ( uw i , w j ) = log ( C P j + 1 ) ( C w j + 1 ) * CoSim ( uw i , w j )
Figure BDA0000214663864
表示已知词wj的词性在树库中的频次,
Figure BDA0000214663865
表示词wj在树库中的频次。为避免频次为0的情况,对对数进行了数据加1平滑。
步骤D,根据字形相似度计算,进行最优化求解,获取最优映射词:
w j = arg w j max FianlSim ( uw i , w j )
目前,大多数依存句法分析是基于词汇统计模型,但在现有资源有限的前提下,随着网络新兴用于的涌现,会出现严重数据稀疏问题,给句法分析带来严重阻碍。本发明借助扩展版的《同义词词林》,根据汉字字形特征,设计字形相似度计算模型,将树库未登录词映射成已知词,从而实现在不扩大数据规模的情况下,细化信息粒度,缓解树库数据稀疏问题,改进依存句法分析性能。
附图说明
图1是本发明实例的依存树库中未登录词处理方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
S10、利用同义词词林,查找未登录词的所有同义词。
查找依存树库中未登录词,根据《同义词词林》扩展板的5层编码方式,获取与未登录词5层编码均相同且第8位标记位为“=”号的所有词,作为未登录词的同义词。
S20、根据汉字字形特征,计算未登录词与同义词的字形相似度。
全体汉字向量用(sw1,sw2,…,swn)表示,这样每一个词语都可以用由0或所含字频次构成的汉字向量表示。将树库的未登录词用uw1,uw2,…,uwt表示,已知词用w1,w2,…,wm表示,当uwi与wj在《同义词词林》中是同义词时,则计算二者的字形相似度:
CoSim ( uw i , w j ) = g ( uw i , w j ) * &Sigma; k = 1 n C ik * C jk &Sigma; k = 1 n C ik 2 &Sigma; k = 1 n C jk 2
Figure BDA0000214663868
其中n为全体汉字组成的向量的维数,k为全体汉字向量的元素位置。Cik表示未登录词uwi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频次。
S30、当未登录词与多个已知词的字形相似度值相同时,需要改进字形相似度计算模型。
当某个未登录词与多个已知词的字形相似度相同时,无法确定哪个已知词为最优的映射词,如“导体、半导体、超导体”是一组同义词,如果“导体”是未登录词,其它两个是已知词,那么“导体”与两个已知词的字形相似度均相同。为了选择更优的映射词,引入词的频次来调整字形相似度计算模型。词性相同的情况下,已知词在树库中出现的频次,是影响分析器学习该词句法信息的一个重要因素,通常频度越高,分析器学习其句法信息越充分。因此当未登录词存在多个已知词可作为映射词时,需要进一步调整字形相似度计算:
FinalSim ( uw i , w j ) = log ( C P j + 1 ) ( C w j + 1 ) * CoSim ( uw i , w j )
Figure BDA00002146638610
表示已知词wj的词性在树库中的频次,
Figure BDA00002146638611
表示词wj在树库中的频次。为避免频次为0的情况,对对数进行了数据加1平滑。
S40、选取最优的已知词作为未登录词的映射词:
w j = arg ( w j ) max FianlSim ( uw i , w j ) .
部分未登录词映射表如表1所示。
表1
未登录词 已知词
暗 AD 暗中 AD
保险金 NN 保证金 NN
报表 NN 表格 NN
巴西人 NN 西班牙人 NN
拨发 VV 签发 VV
以上技术方案详细介绍了汉语依存树库中未登录词处理方法,在资源库的使用上,不限于使用扩展版《同义词词林》获取未登录词的同义词,在应用范围上,可以用于所有汉语依存句法分析树库和可转化为依存树库的所有汉语树库。依据本发明实施例的思想,在具体实施细节、所采用资源库或应用范围上会有所改变,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种汉语依存树库中未登录词的处理方法,其特征在于,所述方法包括以下步骤:
利用同义词词林,查找未登录词的所有同义词;
根据汉字字形特征,设计词语之间的字形相似度计算模型,计算未登录词及其所有同义词之间的字形相似度;
当未登录词存在多个同义词与之映射时,抽取所映射的词及其对应词性的信息量,改进字形相似度计算模型;
根据字形相似度,抽取未登录词的最优映射词,作为树库中对未登录词的解释。
2.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤A中,借助现有语义资源,寻找与树库中未登录词在语义上相同或相近或相关的所有词,作为未登录词的同义词。
3.如权利要求1和权利要求2所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤A中,选用了哈尔滨工业大学信息检索研究室扩展版的《同义词词林》作为语义资源,获取未登录词的同义词。
4.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤B中,汉字字形特征是指根据汉字是象形文字的特点,利用字形表征汉字字义,具体做法是全体汉字用一个向量表示,向量的维数即为全体汉字总数,向量的值或者说权重为某一特定单元中汉字出现的次数。
5.如权利要求1所述和权利要求4所述的汉语依存树库中未登录词的处理方法,其特征在于,字形相似度计算模型如下:
Figure 2012103448843100001DEST_PATH_IMAGE002AAA
uwi代表未登录词,wj代表与未登录词uwi在同义词词林中5层编码均相等的词汇,n为全体汉字组成的向量的维数,k为全体汉字向量的元素位置,Cik表示未登录词uwi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频次。
6.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,当存在多个同义词与未登录词字形相似度值相同时,引入词的频度信息来调整字形相似度计算模型,调整后的字形相似度计算模型如下:
Figure DEST_PATH_IMAGE006AAAA
其中,CPj表示已知词wj的词性在树库中的频次,Cwj表示词wj在树库中的频次,为避免频次为0的情况,对对数进行了数据加1平滑。
7.如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,字形相似度最大的词作为未登录词的最优映射词,在树库中作为对未登录词的解释,其选择方式如下:
Figure 233700DEST_PATH_IMAGE008
CN201210344884.3A 2012-09-17 2012-09-17 汉语依存树库中未登录词的处理方法 Expired - Fee Related CN103678272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210344884.3A CN103678272B (zh) 2012-09-17 2012-09-17 汉语依存树库中未登录词的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210344884.3A CN103678272B (zh) 2012-09-17 2012-09-17 汉语依存树库中未登录词的处理方法

Publications (2)

Publication Number Publication Date
CN103678272A true CN103678272A (zh) 2014-03-26
CN103678272B CN103678272B (zh) 2016-04-06

Family

ID=50315882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210344884.3A Expired - Fee Related CN103678272B (zh) 2012-09-17 2012-09-17 汉语依存树库中未登录词的处理方法

Country Status (1)

Country Link
CN (1) CN103678272B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN106847266A (zh) * 2016-12-26 2017-06-13 清华大学 一种语音识别的方法和装置
CN108038105A (zh) * 2017-12-22 2018-05-15 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108536669A (zh) * 2018-02-27 2018-09-14 北京达佳互联信息技术有限公司 文字信息处理方法、装置及终端
CN108549627A (zh) * 2018-03-08 2018-09-18 北京达佳互联信息技术有限公司 汉字处理方法及装置
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109543151A (zh) * 2018-10-31 2019-03-29 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN110619866A (zh) * 2018-06-19 2019-12-27 普天信息技术有限公司 语音合成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245047A (ja) * 1996-03-13 1997-09-19 Oki Electric Ind Co Ltd 語句の符号化方法及び装置
CN101984436A (zh) * 2010-11-19 2011-03-09 无敌科技(西安)有限公司 一种汉字形近字的查询装置及方法
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102193993A (zh) * 2011-04-20 2011-09-21 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245047A (ja) * 1996-03-13 1997-09-19 Oki Electric Ind Co Ltd 語句の符号化方法及び装置
CN101984436A (zh) * 2010-11-19 2011-03-09 无敌科技(西安)有限公司 一种汉字形近字的查询装置及方法
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102193993A (zh) * 2011-04-20 2011-09-21 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106847266A (zh) * 2016-12-26 2017-06-13 清华大学 一种语音识别的方法和装置
CN106847266B (zh) * 2016-12-26 2019-12-13 清华大学 一种语音识别的方法和装置
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN106777283B (zh) * 2016-12-29 2021-02-26 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN108038105A (zh) * 2017-12-22 2018-05-15 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108038105B (zh) * 2017-12-22 2020-06-05 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108536669A (zh) * 2018-02-27 2018-09-14 北京达佳互联信息技术有限公司 文字信息处理方法、装置及终端
CN108549627A (zh) * 2018-03-08 2018-09-18 北京达佳互联信息技术有限公司 汉字处理方法及装置
CN110619866A (zh) * 2018-06-19 2019-12-27 普天信息技术有限公司 语音合成方法及装置
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109145294B (zh) * 2018-08-07 2022-05-24 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN109543151A (zh) * 2018-10-31 2019-03-29 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN109543151B (zh) * 2018-10-31 2021-05-25 昆明理工大学 一种提高老挝语词性标注准确率的方法

Also Published As

Publication number Publication date
CN103678272B (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN103678272A (zh) 汉语依存树库中未登录词的处理方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
Candito et al. Improving generative statistical parsing with semi-supervised word clustering
CN105808525A (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN106598937A (zh) 用于文本的语种识别方法、装置和电子设备
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN104756100A (zh) 意图估计装置以及意图估计方法
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN103154936A (zh) 用于自动化文本校正的方法和系统
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN103902525B (zh) 维吾尔语词性标注方法
CN106611041A (zh) 一种新的文本相似度求解方法
Jahangir et al. N-gram and gazetteer list based named entity recognition for urdu: A scarce resourced language
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN104298663A (zh) 评价术语领域翻译一致性的方法及统计机器翻译方法
Parameswarappa et al. Kannada word sense disambiguation using decision list
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages
Das et al. Word sense disambiguation in Bengali applied to Bengali-Hindi machine translation
CN115455986A (zh) 一种西班牙语地名翻译方法、装置、设备及介质
Singh et al. English-Dogri Translation System using MOSES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160406

CF01 Termination of patent right due to non-payment of annual fee