CN101334768A - 一种利用计算机对词义进行排歧的方法、系统及检索方法 - Google Patents

一种利用计算机对词义进行排歧的方法、系统及检索方法 Download PDF

Info

Publication number
CN101334768A
CN101334768A CNA2008101179070A CN200810117907A CN101334768A CN 101334768 A CN101334768 A CN 101334768A CN A2008101179070 A CNA2008101179070 A CN A2008101179070A CN 200810117907 A CN200810117907 A CN 200810117907A CN 101334768 A CN101334768 A CN 101334768A
Authority
CN
China
Prior art keywords
speech
senses
dictionary entry
background
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101179070A
Other languages
English (en)
Other versions
CN101334768B (zh
Inventor
刘飞
潘小双
吴明辉
迟松涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Priority to CN2008101179070A priority Critical patent/CN101334768B/zh
Publication of CN101334768A publication Critical patent/CN101334768A/zh
Application granted granted Critical
Publication of CN101334768B publication Critical patent/CN101334768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种利用计算机对词义进行排歧的方法、系统及检索方法。本发明利用歧义词的背景特征词对歧义词每个义项的贡献度来确定歧义词的涵义,计算机可以自己对排歧进行学习。本发明排歧的实现方法简单且容易理解并且是十分有效的。通过实验表明,对于系统关注的词义排歧,平均准确率可以达到90%以上。同时,对比其他歧义排除方法,此方法运行速度很快并且系统容易实现。本发明的检索方法可以只展示给用户与用户输入关键词涵义相同的检索结果,大大提高了检索效率。

Description

一种利用计算机对词义进行排歧的方法、系统及检索方法
技术领域
本发明涉及计算机技术领域,具体地说,涉及一种用计算机对语言文字进行处理时,对词语的词义进行排歧的方法及词义排歧系统,本发明还涉及一种检索方法。
背景技术
在计算机检索、语音识别、机器翻译等技术领域,需要由计算机对文字或语言进行处理,从而达到以机器来模拟人的部分乃至全部的语言能力的目的。经过长时间的发展,人类的语言已经形成了自身固有的客观语言规律。但是,由于自然语言中的词汇存在大量的歧义,即同一词语可能具有多种涵义,因此,计算机在对语言进行处理的过程中,需要根据某一词汇上下文中的词例从该词汇的诸多项词义中选择出正确的词义,该过程称为词义排歧或词义消歧。词义排歧作为自然语言处理领域十分重要的内容,主要用作两种语言的机器翻译系统中,也有一些应用在信息检索系统中。
由于汉语中单个词语通常具有很多的涵义,词义排歧通常有比较大的难度。如果不能够很好的选择词语的词义,那么,需要准确理解文本内容和准确理解单独词的词义的目标将难以实现。目前,对于歧义问题通常有两种基本的处理方法:第一种方法是在词义分析过程中消除非良构词义表示,即一个语句结构可以有两种或两种以上的理解方法,通过分析语句的句法结构,把一个语句变成一颗确定的语法树,使其不会有两种或两种以上的理解方法,而在这个过程中,能够消除一些词语的歧义,从而产生的正确的词语涵义;第二种方法是在词义分析之前独立进行词义排歧。对于独立的方法,目前有一些数学模型可以实现词义排歧。
由于不同的计算机系统处理文本中关注的重点是不一样的,如机器翻译领域需要把每个词的词义的选择与文章的整体语境协调起来;但某些系统只关心某些特定词汇的词义排歧,而不关心其他词的词义判断是否准确,例如在信息检索领域只关心检索关键词的词义选择是否正确。这样,导致了现有的词义排歧方法在适应不同的应用时需要有不同的方法。
中文切词(或中文分词)是中文信息处理的基础,即将连续的中文字序列按一定的规范重新组合成词的序列,例如,将“我的笔记本”切分成“我”“的”“笔记本”三个词汇单元。对中文切词的算法主要有两种方法。
第一种是使用词典进行切词。使用词典的方法必须有一个中文的词库,这个词库中包含中文中出现的几乎所有的词。有了词库的情况下就可以使用最大正向匹配,或者最大逆向匹配进行中文切词了。最大正向匹配的算法为:
(1)将整篇文章按照标点符号切分成句子;
(2)依次处理每一个句子S,设句子中字的个数为n;
(3)设置一个词的最大长度K,令K=min(m,n);(m为词库中词的最大长度,min(m,n)为m和n的最小值。)
(4)取句子S中的前K个字作为一个待选词,到词典里查找是否含有这个词,如果词典里含有这个词,那么就找到了一个词,并把S中这前K个字去掉,这时S的长度为n-K,如果S的长度变成0,那么转到(2),处理下一个句子,如果S的长度大于0,则重复步骤(3);如果词典中不含有这个词,把K减1,并重复步骤(4);直至处理完所有句子。
另一种中文切词方法是使用概率的方法。举个例子,对“有意见分歧”进行切词,那么,按照最大正向匹配的方法,这个句子应该被切成“有意”,“见”,“分歧”。但实际上正确的切法应该是“有”,“意见”,“分歧”。用概率的方法就是统计词在语言中出现的概率,当一个句子有多种切法的时候,计算每一种切法每个词出现的概率的乘积,取值最大的一种作为切词结果。
命名实体(Named Entity)是指文本中具有特定意义的专有名称和数量短语。命名实体是文本中比较重要的元素,命名实体对于自动理解文本内容和理解文本词义都有非常重要的作用。
很多命名实体名称中的一些词存在歧义。例如,“联想集团”是一个公司实体,组成这个公司实体的一个词“联想”就存在着歧义。这很有可能导致命名实体识别的不准确,或者整个文章的计算机理解不准确的问题。当系统中关注的词中存在着大量歧义的情况下,不解决辨别词的歧义问题是无法满足系统的目的和要求的。
在检索技术领域,有些用户掌握不了检索技巧,不会选择正确的检索关键词,因此不能检索到准确的结果。即使用户选对了检索关键词,由于关键词可能存在歧义,而现有的检索方法会忽略关键词的歧义,将所有包含关键词的结果均展示给用户,导致检索结果信息量过大,用户需要耗费大量时间和精力从中选择出自已需要的信息。一种解决办法是输入多个关键词,例如GOOGLE中允许输入多种类型的关键词,可以是检索结果中必须包含所有的关键词,也可以是检索结果中包含多个关键词其中之一,或者检索结果中包含一部分关键词而不能包含另一部分关键词。但是,这些检索系统的这些关键词都是包含或者不包含的关系。对于检索中经常存在的一种情形,即真正要搜索的是具有某个确定词义的关键词,采用这种方法,将导致不加其他关键词时,检索结果过大,而加上其他关键词,则可能导致检索结果过小。比如,要检索可以吃的“苹果”的相关文章,如果只输入“苹果”,那么会将电脑品牌的“苹果”和电影“苹果”等相关的文章都搜索出来,但如果加上“吃”、“红色”等关键词,又会导致与吃的“苹果”相关但不具有增加的这些关键词的文章搜不出来。总之,不能根据其实际词义来确定一个范围适当的搜索结果。
另外,现有技术中的词义排歧方法是针对文本中所有词的词义排歧,都只关注如何进行词义排歧,而没有关注如何确定哪些是所要关注的歧义词。由于中文中有特别多的词,而且几乎每个词都存在着不同的义项(即词义选项),词义的排歧系统不可能对所有的词进行排歧,这些方法不能直接应用于对系统核心关注词的词义排歧而有很好的效果。因此,有必要将如何确定系统关注的歧义词与词义排歧结合起来。并且,目前现有的词义排歧技术通常比较复杂,实现成本高,代价大。
发明内容
本发明要解决的技术问题是提供一种用计算机对语言文字进行处理的方法及系统,该方法和系统实现简单、处理速度快、准确率高。本发明要解决的另一技术问题是提供一种检索方法。
为了解决上述问题,本发明提供了一种计算机处理语言时对词义进行排歧的方法,包括:
建立包含多篇文章的文章库,根据词语词义词典对所述文章中各词汇的词义进行标注,每一词汇具有一个或多个词义选项即义项;
对每一词汇,确定该词汇的背景特征词以及每一背景特征词对于该词汇各义项的权重;
对于待分析文本中需进行排歧的歧义词,确定该待分析文本中包含的该歧义词的背景特征词,然后对该歧义词的每个义项,分别计算出所述背景特征词对于该义项的权重之和;
根据各义项的权重之和选择一个义项作为该歧义词的词义。
进一步地,所述待分析文本中需进行排歧的歧义词由以下方法选出:分析任务需求,针对目标系统的应用,利用目标系统的应用和命名实体或词之间的关系,找出目标系统中关注的内容,并将这些内容转化为相对应的词,即系统核心关注词。
进一步地,从所述目标系统中提取出所述系统核心关注词后,首先到所述词语词义词典中查找所述系统核心关注词的义项,如果所述系统核心关注词的义项个数为多个,执行后续词义排歧步骤;如果所述系统核心关注词的义项个数为一个,则将所述系统核心关注词对应的唯一义项作为所述系统核心关注词的涵义。
进一步地,所述确定词汇的背景特征词的方法为:
在文章库中包含所述词汇的每条语料中所述词汇的前后分别确定背景词的提取范围,并提取中其中的背景词;
计算出每个背景词对应所述词汇的每个义项的权重,所述背景词的权重为:包含有所述词汇的某义项的所有语料中,包含所述背景词的语料所占的比例;
判断所述背景词的权重是否大于或等于一预先配置的第二阈值,如果大于或等于,提取该背景词作为背景特征词;如果小于,放弃该背景词,不作为背景特征词。
进一步地,所述根据各义项的权重之和选择一个义项作为该歧义词的词义的方法为:
选出歧义词的背景特征词权重和最大的和第二大的两个义项,对该两个义项的权重和求差值,当所述差值的绝对值大于或等于一预先配置的第一阈值时,将所述权重和最大的义项作为所述歧义词的涵义。
进一步地,所述第一阈值的取值范围是0.02~0.20;所述第二阈值的取值范围是0.03~0.15。
本发明还提供了一种计算机处理语言时对词义进行排歧的系统,包括:
存储单元,用于存储词语词义词典、文章库和歧义词分类模型,所述文章库中所有文章中的各词汇的词义已被标注,所述歧义词分类模型包含文章库中所有词汇的背景特征词,以及这些背景特征词在相应词汇的各义项中的权重;
背景词提取单元,用于根据背景词的提取范围从所述文章库中提取出每个词汇的背景词;
背景特征词提取单元,用于从所述背景词提取单元所提取出的背景词中选取出背景特征词,并传送给背景词权重计算单元;
背景特征词提取单元,用于逐一判断每一背景词对于相应的每一词汇各义项的权重中是否至少有一个大于或大于等于预先配置的第二阈值,如果是,将该背景词作为该词汇的背景特征词并记录该背景特征词对于该词汇各义项的权重;如此得到文章库中全部或部分词汇的背景特征词及其对于相应词汇各义项的权重,生成歧义词分类模型并保存到所述存储单元;
词义排歧单元,用于选取待分析文本中的系统核心关注词,对每一个具有多个义项的系统核心关注词即歧义词,先提取出其背景词并根据歧义词分类模型选出其中包含的该歧义词的背景特征词,然后对该歧义词的每个义项,计算出这些背景特征词对于该义项的权重之和,根据各义项的权重之和选择一个义项作为该歧义词的词义。
进一步地,所述词义排歧单元包括:
系统核心关注词选取模块,用于分析任务需求,针对目标系统的应用,利用目标系统的应用和命名实体或词之间的关系,找出待分析文本中关注的内容,并将这些内容转化为相对应的词,即系统核心关注词,传送到义项查询模块;
背景特征词查询模块,用于对每一歧义词,从待分析文本中提取出该歧义词的背景词,并根据歧义词分类模型选出这些背景词中包含的该歧义词的背景特征词;
词义确定模块,用于从歧义词分类模型查询到该歧义词的背景特征词对于该歧义词各义项的权重,然后对该歧义词的每个义项,计算所有背景特征词对于该义项的权重之和,如权重和最大的二个义项的权重和之差的绝对值大于第一阈值,则将权重和最大的义项作为该歧义词的词义。。
进一步地,所述词义排歧单元还包括:
义项查询模块,用于到所述词语词义词典中查询系统核心关注词的义项个数,如果所述系统核心关注词的义项数为一个,将所述系统核心关注词的该唯一义项作为所述歧义词的涵义;如果所述系统核心关注词的义项数为多个,通知背景特征词查询模块对该系统核心关注词即歧义词进行词义排歧。
本发明对系统关注核心歧义词的选取提供了一种可行的方法。同时,对词义排歧提供了背景特征词的选取方法,以及歧义词词义的判定方法。本发明的方法其优点在于实现方法简单且容易理解并且是十分有效的。通过实验表明,对于系统关注的词义排歧,平均准确率可以达到90%以上。同时,对比其他歧义排除方法,此方法运行速度很快并且系统容易实现。
本发明还提供了一种检索方法,包括:
建立词语词义词典和文章库,对于文章库中的每一个词汇,作如下处理:选出文章库中包含该词汇的所有语料,分别标注出该词汇在各条语料中的涵义,提取出该词汇在各语料中的背景特征词,并计算出该词汇每个背景特征词在词汇的每个义项中的权重,将所述背景特征词及其权重存储在所述数据库中,所述背景特征词的权重为:包含有所述歧义词的某义项的所有语料中,包含所述背景特征词的语料所占的比例;
接收用户输入的检索语句,从所述检索语句中提取出检索关键词,根据所述检索关键词进行初步检索,将检索到的包含有所述检索关键词的文本作为初步检索结果;
从所述检索语句中提取出该检索关键词的背景词,到所述文章库中查询该检索关键词词所对应的背景特征词,根据查询结果从该检索关键词的背景词中选取出背景特征词及每个背景特征词在该检索关键词的每个义项中的权重;
计算出所述检索关键词的每个义项下所有背景特征词的权重之和,选出权重和最大的和第二大的两个义项,对该两个义项的权重和求差值,当所述差值的绝对值大于或等于一预先配置的第一阈值时,将所述权重和最大的义项作为所述检索关键词的涵义;
利用上述方法获取出初步检索结果中各检索关键词的涵义,将所述初步检索结果中检索关键词的涵义与所述检索语句中检索关键词的涵义相同的文本作为最终检索结果展示给用户。
本发明所提供的检索方法,无须用户自己选择检索关键词,用户只需要输入检索语句即可。用户不需要掌握检索技巧,检索复杂度大大降低,因此适于各种人群使用。另外,本发明的检索方法将与检索语句中检索关键词涵义不同的检索结果去除,只展示给用户检索关键词的涵义与检索语句中检索关键词涵义相同的结果,大大减少了展示给用户的信息量,方便用户从中找到自己需要的信息,提高了检索效率。
附图说明
图1是本发明的用计算机进行词义排歧的方法的流程图;
图2是本发明的用计算机进行词义排歧的系统的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
第一实施例
为了实现对词义的排歧,首先,要选取文章中的系统核心关注词。所述系统核心关注词是指系统中关注的需要进行词义排歧的歧义词。如图1所示,选取系统核心关注词并进行排歧的方法为:
步骤101:建立一个词语词义词典,其中包含几乎全部汉语词汇以及这些词汇对应的词义;建立一个文章库;
步骤102:选出文章库中包含某一词汇的所有句子,每一个包含该词汇的句子称为该词汇的一条语料,分别标注出该词汇在各条语料中的词义,一个词汇可以有多个词义选项即义项,按该方式完成对文章库中全部或部分词汇的词义的标注;
在进行标注时,只区分系统需要关注的词义。如:“感冒”这个词,可能有多个义项,如名词表疾病、名词表症状、动词和不正规语。如果系统只希望区分一个词“感冒”是不是疾病,那么,只需要在语料中标注这个词“是”疾病,或“不是”疾病,而不需要关注其他词义。
步骤103:提取该词汇的背景特征词。某词汇的背景词是指语料中出现在该词汇周围的词,而背景特征词是指语料中出现在该词汇周围,并且对进行词义排歧有帮助的词;
该词汇的背景特征词提取方法为:
a)在包含该词汇的语料中指定背景词的提取范围,即该词汇前后的位置K,并提取出该词汇的背景词;
b)基于文章库,对该词汇的每一背景词进行以下处理:
逐一计算该背景词对于该词汇各义项的权重,该背景词对于该词汇某义项的权重等于包含该词汇该义项的所有语料中,包含该背景词的语料所占的比例;
如果该背景词对于该词汇的至少一个义项的权重大于或大于等于预先配置的第二阈值,则将该背景词作为该词汇的背景特征词并记录该背景特征词对于该词汇各义项的权重;
c)对该词汇的每一背景词,按步骤b)进行处理后,得到该词汇的所有背景特征词,以及每一背景特征词对于该词汇各义项的权重。
假设该词汇为a,词汇的义项有n个,每个义项分别为s1,s2,...,sn,对每个义项si,它出现的语料的条目为numi个;设背景词共有m个,对于每一个背景词w,它出现在该词汇a的义项si所在语料(即该语料包含歧义词a,且在人工标注时a的义项被标注为si)中的个数(既包含该岐义词a又包含这个背景词w的语料的个数)记为wni;那么确定背景特征词的方法为:对于每一个背景词w,如果对其中某个义项中,wni/numi>=THRESHOLE2,那么这个词是背景特征词;如果对于某个义项中,wni/numi<THRESHOLE2,那么这个词不是背景特征词。其中,wni/numi为某背景词w在该词汇a的某个义项si中的权重,即在包含有该义项si的语料中,背景词w出现的语料数目占包含有该义项si的所有语料数目的比例;THRESHOLE2为一预先配置的第二阈值。判断表达式可以描述为:当某背景词w在该词汇的某个义项si中的权重超过了第二阈值,则该背景词为背景特征词,否则该背景词不是背景特征词。
例如,“苹果”这个词存在以下三个义项,一是“水果”的一种,二是一家IT公司或者是品牌的名称,三是范冰冰拍的一部电影的名称。人工标注的语料中,包含第一个义项的语料有2000条,第二个义项的语料有1000条,包含第三个义项的语料有1500条。其中的THRESHOLE2为0.1。假设在“苹果”这个词周围有这样二个背景词“香蕉”“草坪”,其中有“香蕉”出现的包含第一个义项的语料有500条,有“香蕉”出现的包含第二个义项的语料有30条,有“香蕉”出现的包含第三个义项中语料有100条,那么,在包含第一个义项的2000条语料中,有“香蕉”出现的语料的数目500>2000*0.1=200,所以,“香蕉”这个词是背景特征词,且其对于这个义项的权重为0.4。假设有“草坪”出现的包含第一个义项的语料有100条,有“草坪”出现的包含第二个义项的语料有50条,包含第三个义项的语料有80条,因为100<2000*0.1=200,并且50<1000*0.1=100,并且80<1500*0.1=150,所以“草坪”这个背景词不是“苹果”这个歧义词的背景特征词。
THRESHOLE2的取值0.03至0.15时,选取出的背景特征词对判断歧义词的意思最有效。
重复步骤102~103,选取出文章库中所有词汇的背景特征词,并计算出每一背景特征词对于相应词汇各义项的权重,生成歧义词分类模型并保存。
某背景特征词的相应词汇是指该背景特征词是从这些词汇的背景词中提取出来的,一个背景特征词的相应词汇可以有一个或多个。另外,在其他实施例中,也可以根据需要只对文章库中所选的部分词汇进行背景特征词的选择和权重的计算。
步骤104:分析任务需求,针对目标系统的应用,利用目标系统的应用和命名实体或词之间的关系,从待分析文本中找出目标系统中关注的内容,并将这些内容转化为相对应的词,即系统核心关注词;
所述目标系统是指本发明的方法所应用的系统,例如医药检索系统等。如目标系统是针对医药领域的,则需要找出医药领域的疾病类命名实体,和一些医药领域的名词。如何转化是由系统的使用者来指定的,例如,在涉及计算机领域的应用中,从目标系统中找出了“联想集团”这个词,则需要将“联想集团”转化成“联想”和“集团”两个词,其中“联想”这个词就是系统核心关注词。
步骤105:将每一个选出来的系统核心关注词,到词语词义词典中进行查找,如果这个词只有一个义项,那么,将不对它进行处理;如果这个词有多个词义,将这个词作为歧义词放入需要处理的歧义词的列表中;
步骤106:对歧义词列表中的歧义词进行排歧。
假设要判定的某个歧义词有n个义项,对该歧义词的词义排歧步骤为:
1)从待分析文本中选取出该歧义词周围的背景词,并到文章库中去查询背景词是否为背景特征词,根据查询结果将非背景特征词排除;
2)从文章库中查询出每个背景特征词在歧义词的每个义项中的权重(weight1,weight2,...,weightn),其中weighti=wni/numi
3)对该歧义词的每个义项,计算出该义项的所有背景特征词的权重之和。一种计算方法是:将歧义词的不同义项的评分设为(sense1,sense2,...,sensen),初始值都是0(初始值的作用是计算每个背景特征值对各个义项贡献的和);对于每个背景特征词,将它在每个义项中的权重值加到相应义项的评分上,即sensei+weighti赋值给sensei;这里可以看出sensei就是起加和每个背景特征词对岐义词的不同义项的贡献(weightI)。
4)将该歧义词的所有义项下背景特征词的权重之和进行排序,取权重和最大和第二大的两个义项,计算这两个义项权重和的差值,如果该差值大于或等于一预先配置的第一阈值THRESHOLE1,那么即判断权重和最大的义项为该歧义词的词义。
这里,如果阈值取为零,即相当于直接将权重和最大的义项作为该歧义词的词义。
即:取出最大的两个义项评分sensei,sensej,如果sensei-sensej>=THRESHOLE1,那么这个歧义词在这句话中的意思就是snesei对应的义项的意思;如果sensei-sensei<THRESHOLE1,说明这两个义项区别不明显,则可以通过其它现有词义排歧技术辅助排歧,或选取词义表中这两个义项中位置靠前(在步骤102确定需要关注的词义时,就应该生成了歧义词的词义的表,这个表中的第一个位置应该是默认的词义,既第一个位置的词义是在判断不出词义的情况下默认选择的词义)的义项作为它的词义。其中,THRESHOLE1取为0.02到0.20的取值范围,可以达到识别准确率在90%以上的效果。
例如:仍以“苹果”这个词为例。假设“苹果”这个词出现在“今天我想吃苹果和香蕉,不想吃西瓜”这个句子中,需要对其进行词义排歧。苹果有三个义项,分别为“水果”、“公司”、“电影”。通过前述的方法,判断出“吃”和“香蕉”是背景特征词,假定,“吃”在这三个义项中的权重(weight)值经过计算后分别为0.13,0.03,0.04;“香蕉”在这三个义项中的权重(weight)值经过计算后分别为0.11,0.01,0.02。那么,初始时,三个义项的评分都是0,将“吃”和“香蕉”的三个义项的权重值分别加到三个义项的评分中。“水果”义项的评分=0.13+0.11=0.24;“公司”义项的评分=0.03+0.01=0.04;“电影”义项的评分=0.04+0.02=0.06。取出评分最大的两个义项“水果”、“电影”的评分0.24和0.06,假定设置的THRESHOLE1为0.05,由于0.24-0.06>0.05,所以,“苹果”在例句中的义项应为“水果”。
通过上述方法,计算机可以完成对词义的一个学习过程。
上述实施例的一个应用场景是:比如想统计一个饮食医疗的网站中有多少篇文章讲到水果,水果中有苹果等其他水果,很多水果有歧义,因此,如果想要准确判断有多少篇文章讲到水果,就需要进行词义的排歧。对讲述水果的文章的统计就是一个具体的应用系统,水果的名称等就是相关的命名实体,利用词义排歧方法,可以准确的判断出多少网页中讲到了水果。
如图2所示,本发明的计算机处理语言时对词义进行排歧的系统包括:
存储单元,用于存储词语词义词典、文章库和歧义词分类模型,所述文章库中所有文章中的各词汇的词义已被标注,所述歧义词分类模型包含文章库中所有词汇的背景特征词,以及这些背景特征词在相应词汇的各义项中的权重;
背景词提取单元,用于根据背景词的提取范围从所述文章库中提取出每个词汇的背景词,并传送给背景词权重计算单元;
背景词权重计算单元,用于基于文章库,计算提取的每一背景词对于相应词汇各义项的权重并传送给所述背景特征词提取模块,某背景词对于某词汇某义项的权重等于包含该词汇该义项的所有语料中,包含该背景词的语料所占的比例;
背景特征词提取单元,用于逐一判断每一背景词对于相应的每一词汇各义项的权重中是否至少有一个大于或大于等于预先配置的第二阈值,如果是,将该背景词作为该词汇的背景特征词并记录该背景特征词对于该词汇各义项的权重;如此得到文章库中全部或部分词汇的背景特征词及其对于相应词汇各义项的权重,生成歧义词分类模型并保存到所述存储单元;
词义排歧单元,用于选取待分析文本中的系统核心关注词,对每一个具有多个义项的系统核心关注词即歧义词,先提取出其背景词并根据歧义词分类模型选出其中包含的该歧义词的背景特征词,然后对该歧义词的每个义项,计算出这些背景特征词对于该义项的权重之和,根据各义项的权重之和选择一个义项作为该歧义词的词义。
词义排歧单元又包括:
系统核心关注词选取模块,用于分析任务需求,针对目标系统的应用,利用目标系统的应用和命名实体或词之间的关系,找出待分析文本中关注的内容,并将这些内容转化为相对应的词,即系统核心关注词,传送到义项查询模块;
义项查询模块,用于到所述词语词义词典中查询系统核心关注词的义项个数,如果所述系统核心关注词的义项数为一个,将所述系统核心关注词的该唯一义项作为所述歧义词的涵义;如果所述系统核心关注词的义项数为多个,通知背景特征词查询模块对该系统核心关注词即歧义词进行词义排歧;
背景特征词查询模块,用于对每一歧义词,从待分析文本中提取出该歧义词的背景词,并根据歧义词分类模型选出这些背景词中包含的该歧义词的背景特征词;
词义确定模块,用于从歧义词分类模型查询到该歧义词的背景特征词对于该歧义词各义项的权重,然后对该歧义词的每个义项,计算所有背景特征词对于该义项的权重之和,如权重和最大的二个义项的权重和之差的绝对值大于第一阈值,则将权重和最大的义项作为该歧义词的词义。
第二实施例
将本发明的词义排歧方法应用于检索技术领域时,其步骤如下:
首先同上述步骤101~103,生成歧义词分类模型。
在检索时,接收用户输入的检索语句,从检索语语句中提取出检索关键词。此处的检索关键词同上述词义排歧方法中的系统核心关注词,提取检索关键词的方法同上述词义排歧方法中提取系统核心关注词的方法相同。
利用现有的检索方法检索出包含有所述检索关键词的所有文本作为初步检索结果。
判断检索关键词是否为歧义词,如果是,利用上述步骤106的方法对检索语句中的检索关键词(歧义词)进行排歧,获取检索关键词在检索语句中的涵义。
同样,利用上述步骤106的方法对初步检索结果中各文本中的检索关键词进行排歧,获得初步检索结果中各文本中的检索关键词的涵义。
将初步检索结果中检索关键词的涵义与检索语句中检索关键词的涵义相同的文本作为最终检索结果展示给用户。
本发明的检索方法与现有技术相比,无须用户自己选择检索关键词,用户只需要输入检索语句即可。用户不需要掌握检索技巧,检索复杂度大大降低,因此适于各种人群使用。另外,本发明的检索方法将与检索语句中检索关键词涵义不同的检索结果去除,只展示给用户检索关键词的涵义与检索语句中检索关键词涵义相同的结果,大大减少了展示给用户的信息量,方便用户从中找到自己需要的信息,提高了检索效率。
以用户想在网络中检索“吃苹果是否可以降低血压”这个问题为例说明本发明。首先,如上所述,生成歧义词分类模型。检索时,用户只需要输入“吃苹果是否可以降低血压?”作为检索语句。
本发明的方法在接收到上述检索语句后,从其中提取出“苹果”、“降低”、“血压”作为检索关键词,然后从网络中检索出所有包含“苹果”、“降低”、“血压”的文章作为初步检索结果,并暂存该初步检索结果。
由于“苹果”是一个歧义词,在检索语句中,“苹果”的涵义是水果的一种,但该初步检索结果中可能包含其它涵义的结果,这些结果会增加用户的工作量。于是本发明根据“苹果”在检索语句中的背景特征词“吃”的权重,得知苹果”在检索语句中的含义是“一种水果”。同样,利用上述步骤106所述方法,对初步检索结果中所有检索关键字“苹果”进行排歧,其结果是,初步检索结果中有一部分文章中的“苹果”是“一种水果”的涵义,而其它文章中的“苹果”是“一家IT公司”、“一个品牌”或“一部电影”的涵义。本发明将初步检索结果中“苹果”的涵义是“一种水果”的文章提取出来作为最终检索结构展示给用户。由此,大大减少了展示给用户的信息量,让用户更容易的从检索结果中找到自己想要的信息,提高了工作效率。
第三实施例
本实施例是另一检索的实施方式,首先同上述步骤101~103,生成歧义词分类模型。
在检索时,用户对输入的一检索关键词,增加用于确定该检索关键词词义的背景特征词,即将该检索关键词作为要进行词义排歧的歧义词;
从输入的背景特征词中选择出在歧义词分类模型中保存的该检索关键词的背景特征词,对该检索关键词的每一个义项,计算选择出的所有背景特征词对于该义项的权重之和,然后按上一实施例同样的方法选择一个义项作为该检索关键词的词义;
利用现有的检索方法检索出包含有该检索关键词的所有文本,作为初步检索结果;
按第一实施例的方法确定初步检索结果各文本中的检索关键词的词义,将词义与已确定的该检索关键词词义相同的文本作为最终的检索结果输出。在人类长期的智力活动中产生了语言,又经过了数万年的演进,人类的语言已经形成了客观固定的自然规律,例如,一个歧义词的周围会伴随有其它相关的词(即前述背景特征词)出现,这些相关的词与歧义词的某个义项相关。有些相关的词只与歧义词的某个义项相关,有些相关的词与歧义词的多个义项相关,但在各义项中出现的机率是不同的。本发明即是利用了这些规律来对歧义词进行排歧的。
本发明对系统关注核心歧义词的选取提供了一种可行的方法。同时,对词义排歧提供了背景特征词的选取方法,以及歧义词词义的判定方法。本发明的方法其优点在于实现方法简单且容易理解,并且是十分有效的。从文章库中重新选取包含系统关注歧义词的句子,通过人工的方式标定这些歧义词的义项,与通过本系统自动的标定这些歧义词的义项进行比较,实验表明,对于系统关注的词义排歧,本发明的平均准确率可以达到90%以上。同时,对比其他歧义排除方法,此方法运行速度很快并且系统容易实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1、一种计算机处理语言时对词义进行排歧的方法,包括:
建立包含多篇文章的文章库,根据词语词义词典对所述文章中各词汇的词义进行标注,每一词汇具有一个或多个词义选项即义项;
对每一词汇,确定该词汇的背景特征词以及每一背景特征词对于该词汇各义项的权重;
对于待分析文本中需进行排歧的歧义词,确定该待分析文本中包含的该歧义词的背景特征词,然后对该歧义词的每个义项,分别计算出所述背景特征词对于该义项的权重之和;
根据各义项的权重之和选择一个义项作为该歧义词的词义。
2、如权利要求1所述的方法,其特征在于,所述待分析文本中需进行排歧的歧义词由以下方法选出:分析任务需求,针对目标系统的应用,利用目标系统的应用和命名实体或词之间的关系,找出目标系统中关注的内容,并将这些内容转化为相对应的词,即系统核心关注词。
3、如权利要求2所述的方法,其特征在于,从所述目标系统中提取出所述系统核心关注词后,首先到所述词语词义词典中查找所述系统核心关注词的义项,如果所述系统核心关注词的义项个数为多个,执行后续词义排歧步骤;如果所述系统核心关注词的义项个数为一个,则将所述系统核心关注词对应的唯一义项作为所述系统核心关注词的涵义。
4、如权利要求1所述的方法,其特征在于,所述确定词汇的背景特征词的方法为:
在文章库中包含所述词汇的每条语料中所述词汇的前后分别确定背景词的提取范围,并提取中其中的背景词;
计算出每个背景词对应所述词汇的每个义项的权重,所述背景词的权重为:包含有所述词汇的某义项的所有语料中,包含所述背景词的语料所占的比例;
判断所述背景词的权重是否大于或等于一预先配置的第二阈值,如果大于或等于,提取该背景词作为背景特征词;如果小于,放弃该背景词,不作为背景特征词。
5、如权利要求4所述的方法,其特征在于,所述根据各义项的权重之和选择一个义项作为该歧义词的词义的方法为:
选出歧义词的背景特征词权重和最大的和第二大的两个义项,对该两个义项的权重和求差值,当所述差值的绝对值大于或等于一预先配置的第一阈值时,将所述权重和最大的义项作为所述歧义词的涵义。
6、如权利要求5所述的方法,其特征在于,所述第一阈值的取值范围是0.02~0.20;所述第二阈值的取值范围是0.03~0.15。
7、一种计算机处理语言时对词义进行排歧的系统,其特征在于,包括:
存储单元,用于存储词语词义词典、文章库和歧义词分类模型,所述文章库中所有文章中的各词汇的词义已被标注,所述歧义词分类模型包含文章库中所有词汇的背景特征词,以及这些背景特征词在相应词汇的各义项中的权重;
背景词提取单元,用于根据背景词的提取范围从所述文章库中提取出每个词汇的背景词;
背景特征词提取单元,用于从所述背景词提取单元所提取出的背景词中选取出背景特征词,并传送给背景词权重计算单元;
背景特征词提取单元,用于逐一判断每一背景词对于相应的每一词汇各义项的权重中是否至少有一个大于或大于等于预先配置的第二阈值,如果是,将该背景词作为该词汇的背景特征词并记录该背景特征词对于该词汇各义项的权重;如此得到文章库中全部或部分词汇的背景特征词及其对于相应词汇各义项的权重,生成歧义词分类模型并保存到所述存储单元;
词义排歧单元,用于选取待分析文本中的系统核心关注词,对每一个具有多个义项的系统核心关注词即歧义词,先提取出其背景词并根据歧义词分类模型选出其中包含的该歧义词的背景特征词,然后对该歧义词的每个义项,计算出这些背景特征词对于该义项的权重之和,根据各义项的权重之和选择一个义项作为该歧义词的词义。
8、如权利要求7所述的系统,其特征在于,所述词义排歧单元包括:
系统核心关注词选取模块,用于分析任务需求,针对目标系统的应用,利用目标系统的应用和命名实体或词之间的关系,找出待分析文本中关注的内容,并将这些内容转化为相对应的词,即系统核心关注词,传送到义项查询模块;
背景特征词查询模块,用于对每一歧义词,从待分析文本中提取出该歧义词的背景词,并根据歧义词分类模型选出这些背景词中包含的该歧义词的背景特征词;
词义确定模块,用于从歧义词分类模型查询到该歧义词的背景特征词对于该歧义词各义项的权重,然后对该歧义词的每个义项,计算所有背景特征词对于该义项的权重之和,如权重和最大的二个义项的权重和之差的绝对值大于第一阈值,则将权重和最大的义项作为该歧义词的词义。
9、如权利要求8所述的系统,其特征在于,所述词义排歧单元还包括:
义项查询模块,用于到所述词语词义词典中查询系统核心关注词的义项个数,如果所述系统核心关注词的义项数为一个,将所述系统核心关注词的该唯一义项作为所述歧义词的涵义;如果所述系统核心关注词的义项数为多个,通知背景特征词查询模块对该系统核心关注词即歧义词进行词义排歧。
10、一种检索方法,其特征在于,包括:
建立词语词义词典和文章库,对于文章库中的每一个词汇,作如下处理:选出文章库中包含该词汇的所有语料,分别标注出该词汇在各条语料中的涵义,提取出该词汇在各语料中的背景特征词,并计算出该词汇每个背景特征词在词汇的每个义项中的权重,将所述背景特征词及其权重存储在所述数据库中,所述背景特征词的权重为:包含有所述歧义词的某义项的所有语料中,包含所述背景特征词的语料所占的比例;
接收用户输入的检索语句,从所述检索语句中提取出检索关键词,根据所述检索关键词进行初步检索,将检索到的包含有所述检索关键词的文本作为初步检索结果;
从所述检索语句中提取出该检索关键词的背景词,到所述文章库中查询该检索关键词词所对应的背景特征词,根据查询结果从该检索关键词的背景词中选取出背景特征词及每个背景特征词在该检索关键词的每个义项中的权重;
计算出所述检索关键词的每个义项下所有背景特征词的权重之和,选出权重和最大的和第二大的两个义项,对该两个义项的权重和求差值,当所述差值的绝对值大于或等于一预先配置的第一阈值时,将所述权重和最大的义项作为所述检索关键词的涵义;
利用上述方法获取出初步检索结果中各检索关键词的涵义,将所述初步检索结果中检索关键词的涵义与所述检索语句中检索关键词的涵义相同的文本作为最终检索结果展示给用户。
CN2008101179070A 2008-08-05 2008-08-05 一种利用计算机对词义进行排歧的方法、系统及检索方法 Active CN101334768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101179070A CN101334768B (zh) 2008-08-05 2008-08-05 一种利用计算机对词义进行排歧的方法、系统及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101179070A CN101334768B (zh) 2008-08-05 2008-08-05 一种利用计算机对词义进行排歧的方法、系统及检索方法

Publications (2)

Publication Number Publication Date
CN101334768A true CN101334768A (zh) 2008-12-31
CN101334768B CN101334768B (zh) 2010-12-08

Family

ID=40197372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101179070A Active CN101334768B (zh) 2008-08-05 2008-08-05 一种利用计算机对词义进行排歧的方法、系统及检索方法

Country Status (1)

Country Link
CN (1) CN101334768B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882158A (zh) * 2010-06-22 2010-11-10 河南约克信息技术有限公司 基于上下文的译文自动调序方法
CN102103604B (zh) * 2009-12-18 2012-12-19 百度在线网络技术(北京)有限公司 检索词核心权重确定方法和装置
CN103365834A (zh) * 2012-03-29 2013-10-23 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN102081627B (zh) * 2009-11-27 2014-09-17 北京金山办公软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN104699819A (zh) * 2015-03-26 2015-06-10 浪潮集团有限公司 一种义原的分类方法及装置
CN105912523A (zh) * 2016-04-06 2016-08-31 苏州大学 一种词义标注方法和装置
CN106407180A (zh) * 2016-08-30 2017-02-15 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
CN108509449A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN109446349A (zh) * 2018-09-28 2019-03-08 传线网络科技(上海)有限公司 多媒体内容的审核方法及装置
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
WO2020107864A1 (zh) * 2018-11-30 2020-06-04 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN112949319A (zh) * 2021-03-12 2021-06-11 江南大学 文本中多义性单词的标注方法、设备、处理器和存储介质
CN113362044A (zh) * 2021-07-07 2021-09-07 北京容联七陌科技有限公司 一种基于汽车零售的提高审批效率流程的方法
CN114462424A (zh) * 2022-04-12 2022-05-10 北京思源智通科技有限责任公司 一种文章段落分析注释方法、系统、可读介质及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469188A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081627B (zh) * 2009-11-27 2014-09-17 北京金山办公软件有限公司 一种确定词语在文本中的贡献度的方法及系统
CN102103604B (zh) * 2009-12-18 2012-12-19 百度在线网络技术(北京)有限公司 检索词核心权重确定方法和装置
CN101882158A (zh) * 2010-06-22 2010-11-10 河南约克信息技术有限公司 基于上下文的译文自动调序方法
CN103365834A (zh) * 2012-03-29 2013-10-23 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
CN103365834B (zh) * 2012-03-29 2017-08-18 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
CN103678576B (zh) * 2013-12-11 2016-08-17 华中师范大学 基于动态语义分析的全文检索系统
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN104111973B (zh) * 2014-06-17 2017-10-27 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN104699819A (zh) * 2015-03-26 2015-06-10 浪潮集团有限公司 一种义原的分类方法及装置
CN105912523A (zh) * 2016-04-06 2016-08-31 苏州大学 一种词义标注方法和装置
CN106407180A (zh) * 2016-08-30 2017-02-15 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
CN108509449A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN110083817B (zh) * 2018-01-25 2023-09-12 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN109446349A (zh) * 2018-09-28 2019-03-08 传线网络科技(上海)有限公司 多媒体内容的审核方法及装置
WO2020107864A1 (zh) * 2018-11-30 2020-06-04 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN112949319A (zh) * 2021-03-12 2021-06-11 江南大学 文本中多义性单词的标注方法、设备、处理器和存储介质
CN112949319B (zh) * 2021-03-12 2023-01-06 江南大学 文本中多义性单词的标注方法、设备、处理器和存储介质
CN113362044A (zh) * 2021-07-07 2021-09-07 北京容联七陌科技有限公司 一种基于汽车零售的提高审批效率流程的方法
CN114462424A (zh) * 2022-04-12 2022-05-10 北京思源智通科技有限责任公司 一种文章段落分析注释方法、系统、可读介质及设备
CN114462424B (zh) * 2022-04-12 2022-07-08 北京思源智通科技有限责任公司 一种文章段落分析注释方法、系统、可读介质及设备

Also Published As

Publication number Publication date
CN101334768B (zh) 2010-12-08

Similar Documents

Publication Publication Date Title
CN101334768B (zh) 一种利用计算机对词义进行排歧的方法、系统及检索方法
CN106997376B (zh) 一种基于多级特征的问题和答案句子相似度计算方法
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
CN109508414B (zh) 一种同义词挖掘方法及装置
US10073673B2 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN101286161B (zh) 一种基于概念的智能中文问答系统
WO2017084506A1 (zh) 搜索查询词纠错方法和装置
CN110287309B (zh) 快速提取文本摘要的方法
US10943064B2 (en) Tabular data compilation
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN108717410B (zh) 命名实体识别方法及系统
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN101510222A (zh) 一种多层索引语音文档检索方法及其系统
CN106202065B (zh) 一种跨语言话题检测方法及系统
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
CN102789452A (zh) 类似内容提取方法
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN111984845B (zh) 网站错别字识别方法和系统
CN108037837A (zh) 一种搜索词的智能提示方法
Kummerfeld et al. An empirical analysis of optimization for max-margin nlp
Gupta Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents
CN111428031A (zh) 一种融合浅层语义信息的图模型过滤方法
CN107239455B (zh) 核心词识别方法及装置
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Assignee: Beijing Tian Xun Communication Technology Co., Ltd.

Assignor: Beijing Xuezhitu Network Technology Co., Ltd.

Contract fulfillment period: 2008.12.25 to 2013.12.24 contract change

Contract record no.: 2009110000296

Denomination of invention: Method and system for eliminating ambiguity for word meaning by computer, and search method

License type: Exclusive license

Record date: 2009.12.1

LIC Patent licence contract for exploitation submitted for record

Free format text: EXCLUSIVE LICENSE; TIME LIMIT OF IMPLEMENTING CONTACT: 2008.12.25 TO 2013.12.24; CHANGE OF CONTRACT

Name of requester: BEIJING ACCELIN TELECOMMUNICATION TECHNOLOGY CO.,

Effective date: 20091201

C14 Grant of patent or utility model
GR01 Patent grant
EC01 Cancellation of recordation of patent licensing contract

Assignee: Beijing Tian Xun Communication Technology Co., Ltd.

Assignor: Beijing Xuezhitu Network Technology Co., Ltd.

Contract record no.: 2009110000296

Date of cancellation: 20141210

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20081231

Assignee: BEIJING MIAOZHEN INFORMATION CONSULTANT CO., LTD.

Assignor: Beijing Xuezhitu Network Technology Co., Ltd.

Contract record no.: 2015110000006

Denomination of invention: Method and system for eliminating ambiguity for word meaning by computer, and search method

Granted publication date: 20101208

License type: Exclusive License

Record date: 20150327

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: BEIJING MIAOZHEN INFORMATION CONSULTANT CO., LTD.

Assignor: Beijing Xuezhitu Network Technology Co., Ltd.

Contract record no.: 2015110000006

Date of cancellation: 20150520

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20081231

Assignee: Beijing Interactive Technology Co., Ltd.

Assignor: Beijing Xuezhitu Network Technology Co., Ltd.

Contract record no.: 2015110000018

Denomination of invention: Method and system for eliminating ambiguity for word meaning by computer, and search method

Granted publication date: 20101208

License type: Exclusive License

Record date: 20150603

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Beijing Interactive Technology Co., Ltd.

Assignor: Beijing Xuezhitu Network Technology Co., Ltd.

Contract record no.: 2015110000018

Date of cancellation: 20160426

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model