CN102929858A - 一种基于词缀的用于对未知词进行语义分类的方法 - Google Patents

一种基于词缀的用于对未知词进行语义分类的方法 Download PDF

Info

Publication number
CN102929858A
CN102929858A CN2012103611506A CN201210361150A CN102929858A CN 102929858 A CN102929858 A CN 102929858A CN 2012103611506 A CN2012103611506 A CN 2012103611506A CN 201210361150 A CN201210361150 A CN 201210361150A CN 102929858 A CN102929858 A CN 102929858A
Authority
CN
China
Prior art keywords
word
unknown
content part
similar
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103611506A
Other languages
English (en)
Other versions
CN102929858B (zh
Inventor
强彦
韩晓红
路景贵
赵涓涓
裴博
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201210361150.6A priority Critical patent/CN102929858B/zh
Publication of CN102929858A publication Critical patent/CN102929858A/zh
Application granted granted Critical
Publication of CN102929858B publication Critical patent/CN102929858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词缀的用于对未知词进行语义分类的方法,包括以下步骤:对于用户输入的任一未知词,针对其词根,在字典中查找与其具有相同词的词作为该未知词的相似词,针对相似词模块中的未知词的相似词和该未知词,将他们的相同部分和不同的部分分离出来,根据同义词词林字典的语义类得算法,计算出各个相似词的内容部分与该未知词的内容部分的相似度,由相似度排序模块将计算模块中的各个相似度按大小顺序排列,最后得出该未知词的语义类。该方法提高原有系统的分析精度,本发明尤其适用于对汉语未知词的分析,根据本发明实现的未知词语义分类系统获得了良好的分析效果。

Description

一种基于词缀的用于对未知词进行语义分类的方法
技术领域
本发明属于自然语言处理技术领域,涉及一种基于词缀的用于对未知词进行语义分类的方法。
背景技术
通常,用户能够先获得描述单词的某些字典。这些字典可以描述单词的出处(例如,通常在哪一段话中出现的等等)、语义类(例如人、事件、情感等等)、含义和例句等。对于那些没有出现在字典中的词我们称为“未知词”。一般而言,未知词可以来源于某些新词。
在文本信息处理中,未知词的出现常常会给用户带来麻烦,由于它的信息(例如例句、语义类等)的不足。
为解决上述麻烦,一种做法是用户在未知词出现时更新字典。但是这一做法在一般情况下很困难,原因如下:(1)由于存在着很多的信息源(报纸、网络等等),因此无法保证用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,对于任一未知词都需要经过许多专家的审核、同意后才能写入字典,因此这需要一段时间。
鉴于此,对未知词进行语义类别的猜测就成了一项很有必要的工作。本发明将关注语义类别信息。也就是,我们将试图猜测未知词的语义类别。
发明内容
本发明的目的在于克服上述技术缺陷,提供一种基于词缀的用于对未知词进行语义分类的方法。
本发明解决其技术问题所采用的技术方案为:
对于用户输入的任一未知词w=AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为1的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,我们可以确定的认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
与现有技术相比,本发明的有益效果为:
本发明的方法基于词缀研究未知词的构词规律,进而分析它的语义类别。本发明可以作为一个独立的语法或语义成分识别系统对中文或其他基于字符的未知词的语义分类,同时也可以与其他语言成分识别系统相结合,对其他系统输出的结果进行分析,提高原有系统的分析精度。本发明尤其适用于对汉语未知词的分析,根据本发明实现的未知词语义分类系统获得了良好的分析效果。
附图说明
图1是示出本发明总体的方法流程图;
图2是示出本发明实施例1基于词缀的未知词语义分类的操作流程图;
图3是示出本发明实施例2基于词缀的未知词语义分类的操作流程图;
图4是示出本发明实施例3基于词缀的未知词语义分类的操作流出图。
具体实施方式
下面结合附图与具体实施方式对本发明的技术方案作进一步详细地说明。
如图1所示,一种基于词缀的用于对未知词进行语义分类的方法,包括以下步骤,对于
用户输入的任一未知词w=AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为1的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,我们可以确定的认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
实施例1
图2的过程开始于步骤201,针对字典中的每个词根A,收集其所有包含A的相似同,这里根据本发明实施例,将各相似词的内容部分取出,并查找它们的语义类以满足本发明的需要。在步骤204中,输入一未知词w=XY,步骤205中,从所收集的相似词集合中选择词根A满足A=X或A=Y的相似词集合,然后经206装置计算其内容部分的相似度,最后得到未知词的语义类。举例来说,对于一未知词“摄像机”,在201装置中选择出其相似词集合,如“照相机”、“飞机”等。在不同部分识别单元中将他们相同的词缀部分“机”移除,并在不同部分存储模块中,以[wr,part1,part2](wr表示未知词w的相似词,part1表示未知词w的内容部分,part2表示相似词wr的内容部分)。如[照相机,摄像,照相],[飞机,摄像,飞],等等。假定在同义词林中,C(摄像)=Hg03,C(照相)=Hg03,C(飞)=Ia10,C(照相机)=Bp15,C(飞机)=Bo22,其中Hg03,I10,Bp15为词林中所定义的语义类。在相似度计算模块206中计算未知词和各相似词内容部分的相似度,对于wr=“照相机”,S(摄像,照相)=1(其中S()表示计算两个语义类的相似度),相似度存储单元中以[Bp15,1]的形式存储其计算结果;对于wr=“飞机”,其内容部分相似度S(摄像,飞)=0.1,将[Bo22,0.1]存储相似度存储模块中。假设未知词“摄像机”只有“照相机”和“飞机”这两个相似词,由于词缀对其语义有很大影响的,因此语义类指定模块将Bp15作为未知词“摄像机”的语义类。
实施例2
图3的过程开始于步骤301,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本发明实施例,判断它们是否是由内容部分扩展而来,若不是则按第一方法确定未知词的语义类,若是,则根据同义词词林查找它们内容部分的语义类,进而确定该未知词的语义类。举例来说,对于一未知词“椅子”,从相似词集合301中查找具有相同词缀的词(例如,带子,镜子等)存储在相似词存储模块中,由不同部分识别模块移除他们的相同部分“子”,并在内容存储模块中以[带子,椅,带],[镜子,椅,镜]的形式存储。假定在同义词林字典中,C(椅)=Bp26,C(带子)=C(带)=Bp25,C(镜子)=C(镜)=Bp01,其中,Bp26,Bp25,Bp01为词林中所定义的语义类。对于相似词wr=“带子”,由于C(带子)=C(带),词缀“子”被认为是词缀而存储在词缀存储单元中。同时,将未知词“椅子”的相同词缀“子”移除,并将“椅”存储在内容模块中,由于C(椅)=Bp26,在加分模块中为Bp26的分值加1。对于相似词wr=“镜子”,也将其词缀“子”去掉,由加分模块为Bp26的分值加1。假设未知词“椅子”只有相似词“带子”和“镜子”,由上述分析可将Bp26作为“椅子”的语义类。
实施例3
图4的过程开始于步骤401,针对字典中的每个词根A,收集其所有包含A的相似词,这里根据本发明实施例,判断其是否由内容部分扩展而来,若是则按第二方法计算它们内容部分的相似度;若否,则由相似度计算模块405计算它们内容部分的相似度,并由语义类判别模块406、407判断该未知词的语义类。举例来说,对于一未知词“厨子”,从存储字典中查找具有相同词缀的词(例如,带子,厨师等)存储在相似词存储模块中,由不同部分识别模块移除他们相同的词缀,并以[wr,part1,part2]的形式存储在内容模块中,例如,[带子,厨,带],[厨师,子,师]等。假定在同义词林字典中,C(厨)=Bn03,C(厨师)=Ae04,C(带子)=C(带)=Bp25,C(子)=A101,C(师)=A102,其中Bn03,Ae04,Bp25,A101,A102为词林中所定义的语义类。对于相似词“带子”,由于C(带子)=C(带),词缀“子”被认为是词缀存储在词缀存储模块中。同时,移除未知词“厨子”中相同的词缀“子”,并将其内容部分“厨”存放在不同模块存储单元中。由于C(厨)=Bn03,由相似度计算模块计算其内容部分的相似度S(厨,带)=S(Bn03,Bp25)=0.4,在加分模块中,将0.4加在语义类Bn03的score上;对于相似词“厨师”,其与未知词不同部分的相似度S(子,师)=S(A101,A102)=0.9,在加分模块中,将0.9加在语义类Ae04的score上。由于0.9>0.4,假设未知词“厨子”只有相似词“带子”和“厨师”,由上述分析可将Ae04作为“厨子”的语义类。另外,若设定阈值T=0.5,则表示只有当相似度超过0.5时才加入其语义类的score上,而此时S(Bn03,Bp25)=0.4,则不必将0.4加在Bn03的score上,因此语义类排序模块仍将Ae04作为未知词“厨子”的语义类。
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims (4)

1.一种基于词缀的用于对未知词进行语义分类的方法,其特征在于,包括以下步骤:
对于用户输入的任一未知词w=AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为1的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
2.如权利要求1所述方法,其特征在于,完全基于未知词的内容部分与相似词内容部分的相似度,其词缀部分对其语义类别没有影响的情况。
3.如权利要求1所述方法,其特征在于,对于计算未知词与相似词的内容部分的相似度,是完全基于相似词词林的语义类相似度计算的。
4.如权利要求1所述方法,其特征在于,对于未知词的相似词wr=AB,若C(wr)=C(B),其中C()表示该词的语义类,此时A为相似词wr和未知词w的词缀,在这种情况下,对于未知词可以很确信的将C(B)作为它的语义类,即C(w)=C(B)。
CN201210361150.6A 2012-09-25 2012-09-25 一种基于词缀的用于对未知词进行语义分类的方法 Active CN102929858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210361150.6A CN102929858B (zh) 2012-09-25 2012-09-25 一种基于词缀的用于对未知词进行语义分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210361150.6A CN102929858B (zh) 2012-09-25 2012-09-25 一种基于词缀的用于对未知词进行语义分类的方法

Publications (2)

Publication Number Publication Date
CN102929858A true CN102929858A (zh) 2013-02-13
CN102929858B CN102929858B (zh) 2015-09-30

Family

ID=47644659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210361150.6A Active CN102929858B (zh) 2012-09-25 2012-09-25 一种基于词缀的用于对未知词进行语义分类的方法

Country Status (1)

Country Link
CN (1) CN102929858B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528666A (zh) * 2019-08-30 2021-03-19 北京猎户星空科技有限公司 一种语义识别方法、装置及电子设备
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794281A (zh) * 2009-02-04 2010-08-04 日电(中国)有限公司 用于对未知词进行语义分类的系统和方法
JP2011129006A (ja) * 2009-12-21 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794281A (zh) * 2009-02-04 2010-08-04 日电(中国)有限公司 用于对未知词进行语义分类的系统和方法
JP2011129006A (ja) * 2009-12-21 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOFEI LU: "Hybrid Models for Semantic Classification of Chinese Unknown Words", 《HUMAN LANGUAGE TECHNOLOGIES 2007:THE CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528666A (zh) * 2019-08-30 2021-03-19 北京猎户星空科技有限公司 一种语义识别方法、装置及电子设备
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质
CN114238619B (zh) * 2022-02-23 2022-04-29 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及系统及装置及介质

Also Published As

Publication number Publication date
CN102929858B (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN110543574A (zh) 一种知识图谱的构建方法、装置、设备及介质
US20180190270A1 (en) System and method for semantic analysis of speech
Mukherjee et al. Sentiment aggregation using ConceptNet ontology
CN109815336B (zh) 一种文本聚合方法及系统
US9189748B2 (en) Information extraction system, method, and program
WO2014005657A4 (en) A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
US20160321355A1 (en) Media content recommendation method and apparatus
US20200202076A1 (en) Social content risk identification
JP6729095B2 (ja) 情報処理装置及びプログラム
CN105550168A (zh) 一种确定对象的概念词的方法和装置
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN109033478A (zh) 一种用于搜索引擎的文本信息规律分析方法与系统
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
US10572525B2 (en) Determining an optimized summarizer architecture for a selected task
CN102929858B (zh) 一种基于词缀的用于对未知词进行语义分类的方法
CN102902665B (zh) 一种基于词缀的用于对未知词进行语义分类的系统
US20120072443A1 (en) Data searching system and method for generating derivative keywords according to input keywords
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
WO2021027085A1 (zh) 文本关键词自动提取的方法、设备和存储介质
CN109977397A (zh) 基于词性组合的新闻热点提取方法、系统及存储介质
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统
US20160170983A1 (en) Information management apparatus and information management method
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant