CN102081602B

CN102081602B - 确定未登录词的类别的方法和设备

Info

Publication number: CN102081602B
Application number: CN200910252923.5A
Authority: CN
Inventors: 胡长建; 赵凯; 邱立坤
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd; Renesas Electronics China Co Ltd
Priority date: 2009-11-30
Filing date: 2009-11-30
Publication date: 2014-01-01
Anticipated expiration: 2029-11-30
Also published as: KR20110060806A; CN102081602A; JP5216063B2; JP2011118872A; KR101195341B1

Abstract

本发明的实施例公开了一种用于确定未登录词的类别的方法和设备。该方法可以包括步骤基于构词规则从词典中选择所述未登录词的同义词；从文集生成所述未登录词的上下文；以及根据所述未登录词的上下文以及所述同义词，确定所述未登录词所属的类别。本方法和设备能够更加高效准确的确定未登录词的类别。

Description

确定未登录词的类别的方法和设备

技术领域

本发明一般涉及信息处理领域，特别涉及用于确定未登录词(unknown word)的类别的方法与设备。

背景技术

随着互联网的广泛普及以及社会的日益信息化，文本信息越来越多，对应的文本信息处理的社会需求越来越大。人们越来越希望用自然语言同计算机交流，并希望用自动化的手段处理海量的文本信息。为了更好地处理文本信息，人们需要积累大量的语言数据资源，例如词典。但是作为处理文本的重要工具之一的词典往往是由人工编纂的，这是非常耗时和低效的。另外，在分词技术中，对于未登录词的切分错误极大地影响到整体分词的召回率，进一步会影响到后续语法以及语义理解的准确度，给信息处理造成一定的困难。在其他信息处理技术，比如信息抽取，如果对未登录词的属性不够清晰，那么信息抽取的结果将会因为未登录词及其信息的残缺而出现歧义甚至错误。因此对未登录词的类别的确定成为亟待解决的问题。

中国专利申请公开CN1717679公开了一种词类标注方法。该方法是对一段文字进行集体标注，主要使用事先录制好的关键词-词类库。如果一段文字中包含特定的关键，那么就将该段文字标注为该关键词对应的词类。

美国专利申请公开US20060100856 A1公开了一种词义猜测方法。该方法的基本思路是为每一个新词借助Web搜索提取该词的用法范例，基于范例根据已有的用例词典来提取词义类候选，如果候选超出1个，那么选用其中一个和新词在特定语料下的共现率最高的那个词义类。

中国专利申请公开CN1369877公开一个新词类别猜测的方法。该方法首先为新词中每一个字符确定一个分离概率。然后在词类基上组合各字符的概率以便为每种类别形成一个分离总概率。基于该总概率对一个阈值比较，把概率超过该阈值的每种词类增加为该多字符词的可能类别。

Xiaofei Lu在NAACL HLT 2007第188-195页的Hybrid Modelsfor Semantic Classification of Chinese Unknown Words中，公开了基于人工创建的规则、统计方法和基于上下文来构筑混合型的词类猜测方法。其中规则和统计方法为上下文方法提供词义类候选。

Chen，H.-H.和C.-C.Lin.在In Proceedings of the 2nd ChineseLanguage Processing Workshop第7-14页的2000.Sense-taggingChinese Corpus中，公开了通过中英文词典的互译来实现词义类标注的方法。该方法基本过程包括以下四个步骤：1)给出一个新词，基于给定的中英文词典为该词查找所有可能的英文翻译；2)从WordNet中为所有的翻译查找对应的词义项；3)查询一个映射表，将步骤2中得到的词义项和Cilin的词义标签对应；4)通过词义消歧的方法从步骤3中得到的词义标签中选择一个作为最终结果。

然而，目前的技术均未能够有效地对未登录词的类别进行确定以便完成自动标注问题。现有技术一般都要使用事先编辑好的词典来对新词进行词类分析，所以这类方法的标注结果的合理性取决于对应词典或者知识库的构建，而且性能比较低。

因此，需要一种具有良好性能的高效的确定未登录词的类别的技术方案。

发明内容

针对以上现有技术中存在的问题，本发明的一个目的在于提供了一种用于确定未登录词的类别的方法和设备。

根据本发明的第一方面，提供了一种用于确定未登录词的类别的方法。该方法可以包括：基于构词规则从词典中选择所述未登录词的同义词；从文集生成所述未登录词的上下文；以及根据所述未登录词的上下文以及所述同义词，确定所述未登录词所属的类别。

根据本发明的第二方面，提供了一种用于确定未登录词的类别的设备。该设备可以包括：同义词选择器，被配置为基于构词规则从词典中选择所述未登录词的同义词；上下文生成器，被配置为从文集生成所述未登录词的上下文；以及类别确定器，被配置为根据所述未登录词的上下文以及所述同义词确定所述未登录词所属的类别。

通过以下对根据本发明的优选实施方式的描述，并结合附图，本发明的其他特征以及优点将会是显而易见的。

附图说明

通过以下结合附图的说明，并且随着对本发明的更全面了解，本发明的其他目的和效果将变得更加清楚和易于理解，其中：

图1是按照本发明的一个实施例的用于确定未登录词的类别的设备的框图；

图2是按照本发明的一个实施例的用于确定未登录词的类别的方法的流程图；

图3是按照本发明的另一个实施例的用于确定未登录词的类别的方法的流程图；

图4是按照本发明的另一个实施例的用于确定未登录词的类别的方法的流程图；以及

图5是按照本发明的又一个实施例的用于确定未登录词的类别的方法的流程图。

在所有的上述附图中，相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

以下结合附图对本发明进行更详细的解释和说明。应当理解，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

为了清楚起见，首先对本发明中所使用的术语作以解释。

1.词典

词典是指收录待处理语言核心词汇的词典，一般规模在5万个条目以上，例如，词林、HowNet、WordNet等。词典可以包括一个或多个词，对于每个词，可以标注其词性、类别、词义、例句等信息。表1给出了词典的数据结构的一个例子，其中共示出了3个词“北京”、“保健品”、“愉快”，每个词具有各自的词性和类别。

表1

序号	词	词性	类别
				1	北京	名词	城市
2	保健品	名词	物质
				3	愉快	形容词	情感
...	...	...	...

2.文集

文集是一组自由文本的集合，自由文本可以是句子、片段、文章等及其任意组合。

3.字、直接成分和词

字是最小文本单元。例如，在中文中，“天”、“我”、“好”分别都是一个字。

直接成分：构成一个大单位的小单位称为大单位的成分，相应地，直接构成一个大单位的小单位称为大单位的直接成分。一个词的直接成分可以是语素或者是比该词更小的词。比如“科学技术部”，它的直接成分是“科学”，“技术”和“部”。而“冰晶”的直接成分为“冰”和“晶”。

词是由一个或多个字所组成的具有一定含义的串。例如，“我们”是包括两个字的词，而“计算机”是包括三个字的词。

4.未登录词

未登录词是在当前的词典中未收录的词。

5.类别

类别可以包括：语义类以及比语义类范围更宽的超类(supersense)。

语义类例如可以是“城市”、“心情”等。一个语义类可以包括多个词，例如词“北京”和“上海”可以都属于语义类“城市”。一个词可以具有多个语义类，例如，词“臂膀”可以具有“身体部位”和“人物”这两个语义类。

超类是指比语义类更宽的类别，例如“地点”、“物质”等，其中，超类“地点”比语义类“城市”的范围更宽。

本发明涉及一种用于确定未登录词的类别的方法。该方法可以包括：基于构词规则从词典中选择未登录词的同义词；从文集生成该未登录词的上下文；以及根据该未登录词的上下文以及同义词，确定该未登录词所属的类别。

根据本发明的一个实施例，可以通过从词典选择与未登录词共享一个或多个构词成分的词作为未登录词的同义词，来完成基于构词规则从词典中选择未登录词的同义词的过程。根据本发明的另一个实施例，可以通过以下来完成基于构词规则从词典中选择未登录词的同义词的过程：确定未登录词的词性；从词典选择与未登录词共享一个或多个构词成分的词；以及在所选择的词中挑选与未登录词的词性相同的词，作为未登录词的同义词。

根据本发明的一个实施例，可以通过以下来完成从文集生成未登录词的上下文的过程：在文集中查找未登录词；以加窗的方式截取与未登录词邻近的字；对所截取的与未登录词邻近的字进行分词；以及确定经过分词后所得到的各个词的权重，以便将经过分词后所得到的各个词及其权重作为未登录词的上下文使用。根据本发明的另一个实施例，可以通过以下来完成从文集生成未登录词的上下文的过程：在文集中查找未登录词；以及以依存树的方式分析未登录词的依存关系，以便将依存关系作为未登录词的上下文使用。

根据本发明的一个实施例，根据未登录词的上下文以及同义词确定未登录词所属的类别的过程可以包括：统计同义词所属的类别；从文集生成每个类别所包含的所有词的上下文，作为每个类别的上下文；计算未登录词的上下文与每个类别的上下文之间的相似度；以及将与最大相似度相对应的类别确定为未登录词所属的类别。根据本发明的另一个实施例，根据未登录词的上下文以及同义词确定未登录词所属的类别的过程可以包括：从文集生成同义词的上下文；计算未登录词的上下文与同义词的上下文之间的相似度；根据计算得到的相似度，从同义词中提取一个集合；将与所提取的集合中的、属于相同类别的同义词相对应的相似度进行求和；以及根据求和后的相似度确定未登录词所属的类别。根据本发明的另一个实施例，根据未登录词的上下文以及同义词确定未登录词所属的类别的过程可以包括：从文集生成同义词的上下文；计算未登录词的上下文与同义词的上下文之间的相似度；统计同义词所属的类别；接收与同义词相关联的预定加权因子；利用接收的预定加权因子，对与相关联的同义词相对应的相似度进行加权；

根据加权后的相似度，从同义词中提取一个集合；将与所提取的集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和；以及根据求和后的相似度确定未登录词所属的类别。

下面将详细描述本发明的各个实施例。

图1是按照本发明的一个实施例的用于确定未登录词的类别的设备100的框图。

本发明的用于确定未登录词的类别的设备100可以包括：同义词选择器110、上下文生成器120以及类别确定器130。同义词选择器110可以基于构词规则从词典中选择未登录词的同义词。上下文生成器120可以从文集生成未登录词的上下文。类别确定器130可以根据未登录词的上下文以及同义词确定未登录词所属的类别。

根据本发明的一个实施例，同义词选择器110可以包括：用于从词典选择与未登录词共享一个或多个构词成分的词作为未登录词的同义词的装置。根据本发明的一个实施例，同义词选择器110可以包括：用于确定未登录词的词性的装置；用于从词典选择与未登录词共享一个或多个构词成分的词的装置；以及用于在所选择的词中挑选与未登录词的词性相同的词，作为未登录词的同义词的装置。

根据本发明的一个实施例，上下文生成器120可以包括：用于在文集中查找未登录词的装置；用于以加窗的方式截取与未登录词邻近的字的装置；用于对所截取的与未登录词邻近的字进行分词的装置；以及用于确定经过分词后所得到的各个词的权重，以便将经过分词后所得到的各个词及其权重作为未登录词的上下文的装置。

根据本发明的一个实施例，上下文生成器120可以包括：用于在文集中查找未登录词的装置；以及用于以依存树的方式分析未登录词的依存关系，以便将依存关系作为未登录词的上下文使用的装置。

根据本发明的一个实施例，上下文生成器120也可以包括用于从文集生成同义词的上下文的装置。

根据本发明的一个实施例，类别确定器130可以包括：用于统计同义词所属的类别的装置；用于从文集生成每个类别所包含的所有词的上下文作为每个类别的上下文的装置；用于计算未登录词的上下文与每个类别的上下文之间的相似度的装置；以及用于将与最大相似度相对应的类别确定为未登录词所属的类别的装置。

根据本发明的一个实施例，类别确定器130可以包括：用于计算未登录词的上下文与同义词的上下文之间的相似度的装置；用于根据相似度从所述同义词中提取一个集合的装置；用于将与所提取的集合中的、属于相同类别的同义词相对应的相似度进行求和的装置；以及用于根据求和后的相似度确定未登录词所属的类别的装置。在一个实施例中，类别确定器130所包括的用于根据求和后的相似度确定未登录词所属的类别的装置可以执行K-近邻算法。

根据本发明的一个实施例，类别确定器130可以包括：用于计算未登录词的上下文与同义词的上下文之间的相似度的装置；用于统计同义词所属的类别的装置；用于接收与同义词相关联的预定加权因子的装置；用于利用接收的预定加权因子，对与相关联的同义词相对应的相似度进行加权的装置；用于根据相似度从同义词中提取一个集合的装置；用于将与所提取的集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和的装置；以及用于根据求和后的相似度确定未登录词所属的类别的装置。在一个实施例中，预定加权因子的指定满足以下策略：如果未登录词与一个类别中的词共享最后一个字并且共享倒数第二个字，则将与类别相关联的预定加权因子设定为λ₁；否则，如果未登录词与一个类别中的词共享第一个字并且共享最后一个字，则将与类别相关联的预定加权因子设定为λ₂；否则，如果未登录词与一个类别中的词仅共享第一个字或者仅共享最后一个字，则将与类别相关联的预定加权因子设定为λ₃；否则将与类别相关联的预定加权因子设定为λ₄，其中λ₁≥λ₂≥λ₃≥λ₄。在一个实施例中，类别确定器130所包括的用于根据所述相似度从所述同义词中提取一个集合的装置可以包括：用于按照大小顺序对相似度进行排序的装置；以及用于将与排在前面的预定数目的相似度相对应的同义词提取到该集合中的装置。

图2是按照本发明的一个实施例的用于确定未登录词的类别的方法的流程图。

在步骤201，基于构词规则从词典中选择未登录词的同义词。

根据本发明的一个实施例，构词规则可以包括构词成分、成分属性和成分关系。构词成分可以包括构成词的字和/或直接成分等；成分属性可以包括词的标注、长度、词性等；成分关系可以包括词的各个成分之间的关系，例如并列、修饰、限定等关系。

在一个例子中，可以从词典选择与未登录词共享一个或多个字和/或直接成分的词，并将其作为未登录词的同义词。例如，假设未登录词为“基民”，该未登录词包含两个字“基”和“民”。假设在词典中包含“基”这个字的词有“基础”、“基本”、“奠基者”、“地基”，包含“民”这个字的词有“人民”、“民主”，则将这些词都认为是未登录词“基民”的同义词，此时同义词集合＝{“基础”，“基本”，“奠基者”，“地基”，“人民”，“民主”}。图3所示的实施例描述了这种实施方式。

另外，在另一个例子中，也可以首先确定未登录词的词性，例如名词、形容词或者动词等，在从词典选择与未登录词共享一个或多个字和/或直接成分的词中挑选与未登录词的词性相同的词，将所挑选的词作为未登录词的同义词。图4和图5所示的实施例描述了这种实施方式。

在步骤202，从文集生成该未登录词的上下文。

根据本发明的一个实施例，可以利用加窗的方式、依存树的方式或者本领域技术人员公知的其它方式生成一个词的上下文。

给定一个词，以下通过一个例子描述怎样通过加窗的方式从一个文集得到一个词的上下文。假设给定的词是“我们”，假设文集中包含多个句子，其中一个句子是“一定好好把握我们每个人的人生道路”，并且设定一个窗口大小为6。

首先，在文集中查找该词。在该例子中，查找到文集中的句子“一定好好把握我们每个人的人生道路”中包括“我们”这个词。

接下来，以加窗的方式截取与“我们”这个词邻近的字。可以在文集中出现该词的句子或者段落中，以覆盖该词的方式划定大小为6的窗。以覆盖该词的方式可以例如是以该词(即“我们”)为中心来截取该词前面紧邻的3个字(“好把握”)和后面紧邻的3个字(“每个人”)，也可以例如是以该词作为开头并且往后截取紧邻的6个字(“每个人的人生”)，也可以例如是以该词作为结尾并且往前截取紧邻的6个字(“一定好好把握”)，或者可以例如是截取该词前面紧邻的1或2个字以及后面紧邻的5或4个字，等等。

在截取到数目等于窗口大小的字后，对所截取的与该词邻近的字进行分词。例如，当以词(“我们”)为中心来截取该词前面紧邻的3个字(“好把握”)和后面紧邻的3个字(“每个人”)时，得到的两组字是“好把握”和“每个人”，对这两组字进行分词，例如可以得到以下分词结果：“好”“把握”“每个”“人”。

然后，确定经过分词后所得到的各个词的权重。经过分词后得到的结果可以具有一个对应的向量<v₁，v₂，...，v_n>，其中n为该词的分词结果的个数，在上述例子中共有4个分词结果，因此n＝4，而v_i是对应词的权重(i＝1...n)。权重具有多种计算方法，例如TFIDF-词频×逆文本频率指数、BOOL(是否存在)、IDF-逆文本频率指数和PMI-点式互信息。在通常情况下，一个词的上下文词出现的次数对该词的词义判定的作用贡献度较小，而出现与否却具有决定意义，所以在本发明的一种优选实施例中，可以采用IDF-逆文本频率指数计算权重。

通过上述过程，可以得到经过分词后所得到的各个词及其权重，所得到的这些词及其权重即可作为开始所给定的词的上下文来使用。

此外，还可以通过在文集中查找未登录词以及以依存树的方式分析该未登录词，从而将分析所得的依存关系作为开始所给定的词的上下文来使用。

通过以上所述的上下文生成方法，可以得到未登录词的上下文。

在步骤203，根据未登录词的上下文以及同义词，确定该未登录词所属的类别。

可以通过多种方式实现根据未登录词的上下文以及同义词确定未登录词所属的类别的过程。在以下对图3至图5的详细描述中，给出了根据未登录词的上下文以及同义词确定未登录词所属的类别的多种具体实现方式。

图3所示的实施例中，首先，可以对未登录词的同义词进行统计，确定这些同义词分属于哪些类别；然后，生成每个类别的上下文，其中每个类别的上下文是根据从文集生成的每个类别所包含的所有词的上下文来得到的；接着，可以利用现有技术公知或常用的相似度计算方法，来计算未登录词的上下文与每个类别的上下文之间的相似度；最后，将与最大相似度相对应的类别确定为未登录词所属的类别。

图4所示的实施例中，首先，可以从文集生成同义词的上下文，这可以使用与步骤202中生成未登录词的上下文相同的实现方式；然后，计算未登录词的上下文与同义词的上下文之间的相似度；根据计算出的相似度，从未登录词的同义词中提取一个集合，该集合可以包括预定数目的同义词；接着，将与所提取的集合中的、属于相同类别的同义词相对应的相似度进行求和；最后，根据求和后的相似度确定未登录词所属的类别。在图4所示的实施例中，例如可以使用K邻近(K Nearest Neighbors，简写为KNN)算法或者本领域技术人员公知的其它方法。

图5所示的实施例中，首先，可以从文集生成同义词的上下文并计算未登录词的上下文与同义词的上下文之间的相似度；然后可以通过利用加权因子对所计算的相似度进行加权的方式，得到更优的相似度结果；继而可以根据更优的相似度确定未登录词所属的类别。具体而言，首先，可以从文集生成同义词的上下文；计算未登录词的上下文与同义词的上下文之间的相似度；统计同义词所属的类别，接收与同义词相关联的预定加权因子，利用接收的预定加权因子，对与相关联的的同义词相对应的相似度进行加权，根据加权后的相似度从未登录词的同义词中提取一个集合，该集合可以包括预定数目的同义词；将与该集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和，并根据求和后的相似度确定未登录词所属的类别

以下具体描述图3至图5的实施例。

图3是按照本发明的另一个实施例的用于确定未登录词的类别的方法的流程图。

在步骤301，接收一个未登录词。

在该实施例中，假设接收的未登录词是“冰晶”。

在步骤302，从词典选择与未登录词共享一个或多个构词成分的词，作为未登录词的同义词。

如前所述，构词规则可以包括构词成分、成分属性和成分关系等，而构词成分又可以包括构成词的字和/或直接成分等，给定一个未登录词和一个词典，如果词典中的词与未登录词共享一个或多个构词成分，都被认定为未登录词的同义词，并放置到同义词集合中。以上可以认为是一个基于构词规则从词典中选择未登录词的同义词的具体实现方式。

以下以共享相同的字为例来进行说明。例如，未登录词为“冰晶”，该未登录词包含两个字“冰”和“晶”。假设在词典中包含“冰”这个字的词有“冰刀”、“冰柜”、“冰雨”、“冰雪”，包含“晶”这个字的词有“水晶”、“晶粒”、“晶体”，则将这些词都认为是未登录词“冰晶”的同义词，此时未登录词的同义词集合＝{“冰刀”，“冰柜”，“冰雨”，“冰雪”，“水晶”，“晶粒”，“晶体”}。

在步骤303，从文集生成未登录词的上下文。

可以利用加窗的方式、依存树的方式或者本领域技术人员公知的其它方式生成未登录词的上下文，具体实现方式已在步骤202中描述，在此不再赘述。

在步骤304，统计同义词所属的类别。

在此步骤中，分别得到未登录词的每个同义词所属的类别，然后对其进行统计，确定这些同义词分别所属的所有类别。

例如，“冰刀”属于类别C1，“冰柜”属于类别C2，“冰雨”属于类别C4，“冰雪”属于类别C4，“水晶”属于类别C3，“晶粒”属于类别C3，“晶体”属于类别C3。如前所述，对于词典中的每个词都可以标注其词性、类别、词义、例句等信息，所以每个词属于哪个类别可以从词典中直接得到。另外，词的类别也可以进行人工设定。

在该例子中，属于类别C1的词有“冰刀”，属于类别C2的词有“冰柜”，属于类别C3的词有“水晶”、“晶粒”、“晶体”，属于类别C4的词有“冰雨”、“冰雪”。

由此可以得到，未登录词“冰晶”的同义词所属的类别是C1、C2、C3和C4。

在步骤305，从文集生成每个类别所包含的所有词的上下文，作为每个类别的上下文。

在此步骤中，首先确定每个类别所包含的所有词。例如，假设可以确定类别C1除了“冰刀”之外还包括“单刀”、“大刀”，记为C1＝{“冰刀”，“单刀”，“大刀”}；类别C2除了“冰柜”之外还包括“冷柜”，记为C2＝{“冰柜”，“冷柜”}；而类别C3只包括“水晶”、“晶粒”、“晶体”，记为C3＝{“水晶”，“晶粒”，“晶体”}；类别C4只包括“冰雨”、“冰雪”，记为C4＝{“冰雨”，“冰雪”}。

根据步骤202所述的从文集生成词的上下文的方法，可以生成以上四个类别C1-C4中所包含的各个词的上下文。每个类别所包含的所有词的上下文可以认为是这个类别的上下文，例如类别C1所包含的“冰刀”的上下文、“单刀”的上下文以及“大刀”的上下文合在一起可以作为类别C1的上下文，记作：C1的上下文＝{“冰刀”的上下文，“单刀”的上下文，“大刀”的上下文}。

在步骤306，计算未登录词的上下文与每个类别的上下文之间的相似度。

根据前面所述，未登录词的上下文可以看作为一个向量，而类别的上下文由于是组合了其包含的所有词的上下文，所以也可以看作一个矢量，因此可以利用向量余弦距离来计算两个向量之间的相似度，该余弦距离如以下公式(1)所示：

CTS (X, Y) = \frac{Σ_{j = 1}^{n} x_{j} y_{j}}{\sqrt{Σ_{j = 1}^{n} {x_{j}}^{2}} \sqrt{Σ_{j = 1}^{n} {y_{j}}^{2}}} - - - (1)

其中，X和Y是两个向量，n是X和Y这两个向量的长度，x_j和y_j分别代表X和Y这两个向量中的第j个元素。

具体应用到本发明的场景中，X可以是未登录词的上下文，Y可以是一个类别的上下文，而x_j和y_j可以分别代表X和Y这两个上下文中的第j个词所对应的权重。当X与Y这两个上下文所包含的元素数目不同的情况下，可以提取这两个向量的所有元素来分别重构对应的新的上下文向量：X’和Y’。对于X’，如果其中的元素不在X中出现，那么对应的权重置为零。而对X和Y的相似度计算则通过公式(1)计算X’和Y’的相似度来完成。通过上述余弦距离的计算，可以得到未登录词的上下文与每个类别的上下文之间的相似度为：

Sim(context(冰晶)，context(C1))＝0.71，

Sim(context(冰晶)，context(C2))＝0.67，

Sim(context(冰晶)，context(C3))＝0.81，

Sim(context(冰晶)，context(C4))＝0.65，

其中context(冰晶)表示“冰晶”这个词的上下文，context(C1)表示类别C1的上下文，Sim(A，B)表示A和B的相似度。由此可见，未登录词“冰晶”的上下文与类别C1、C2、C3和C4各自的上下文之间的相似度分别是0.71、0.67、0.81和0.65。

另外，也可以利用本领域技术人员公知的其它方法来计算二者之间的相似度。

在步骤307，将与最大相似度相对应的类别确定为未登录词所属的类别。

通过比较在步骤306中计算出的相似度，可知未登录词“冰晶”的上下文与类别C3的上下文之间的相似度最高，由此可以将未登录词“冰晶”的类别确定为类别C3。

图4是按照本发明的另一个实施例的用于确定未登录词的类别的方法的流程图。

在步骤401，接收一个未登录词。

在该实施例中，与图3的实施例相同，假设接收的未登录词是“冰晶”。

在步骤402，确定未登录词的词性。

未登录词的词性可以有多种确定方法。例如可以利用已知的各种模型来猜测未登录词的词性，也可以通过人为标定来确定。在本实施例中，假设未登录词是“冰晶”的词性是名词。

在步骤403，从词典选择与未登录词共享构词成分的词。

例如，假设未登录词为“冰晶”，与步骤302相同的是，可以确定与未登录词“冰晶”共享一个字的集合是{“冰刀”，“冰柜”，“冰雨”，“冰雪”，“水晶”，“晶粒”}。

与步骤302不同的是，此时并不直接将上述集合作为未登录词的同义词，而是继续执行步骤404中的词性过滤过程。

在步骤404，在所选择的词中挑选与未登录词的词性相同的词作为未登录词的同义词。

如前所述，构词规则可以包括构词成分、成分属性和成分关系等，而成分属性例如可以包括词的标注、长度、词性等。在图4所示的实施例中，利用了构词规则中的词性来执行对未登录词的同义词的选择。

在本实施例中，从步骤402可以确定未登录词“冰晶”的词性是名词，并且上述集合{“冰刀”，“冰柜”，“冰雨”，“冰雪”，“水晶”，“晶粒”}中的各个词的词性可以从词典得到，因此在步骤404中可以选择这个集合中的名词，作为未登录词“冰晶”的同义词。

在步骤405，从文集生成未登录词的上下文。

在步骤406，从文集生成同义词的上下文。

可以利用加窗的方式、依存树的方式或者本领域技术人员公知的其它方式生成同义词的上下文，具体实现方式已在步骤202中描述，在此不再赘述。

在步骤407，计算未登录词的上下文与同义词的上下文之间的相似度。

未登录词的上下文可以看作为一个向量，而同义词的上下文也可以看作一个矢量，因此可以利用向量余弦距离公式(1)来计算两个向量之间的相似度。

具体应用到本发明的场景中，X可以是未登录词的上下文，Y可以是该未登录词的一个同义词的上下文，而x_j和y_j可以分别代表X和Y这两个上下文中的第j个元素所对应的权重。因此，通过上述余弦距离的计算，可以得到未登录词的上下文与其同义词的上下文之间的相似度为：

Sim(context(冰晶)，context(冰刀))＝0.30，

Sim(context(冰晶)，context(冰柜))＝0.67，

Sim(context(冰晶)，context(水晶))＝0.81，

Sim(context(冰晶)，context(晶粒))＝0.74，

Sim(context(冰晶)，context(冰雨))＝0.69，

Sim(context(冰晶)，context(冰雪))＝0.56，

其中context(冰晶)表示未登录词“冰晶”的上下文，context(冰刀)表示未登录词“冰晶”的同义词“冰刀”的上下文，Sim(A，B)表示A和B的相似度。由此可见，未登录词“冰晶”的上下文与其同义词“冰刀”、“冰柜”、“水晶”、“晶粒”、“冰雨”、“冰雪”的上下文之间的相似度分别是0.30、0.67、0.81、0.74、0.69和0.56。

在步骤408，根据相似度，从未登录词的同义词中提取一个集合。

可以预先设定将要提取的集合中的同义词的数目。在一个例子中，可以将该集合设定为包括预定数目的同义词，该预定数目可以是小于或等于未登录词的同义词的总数的任何数目。在本实施例中，将预定数目表示为K，并假设这一预定数目是5，即假设K＝5。

首先，可以按照大小顺序对步骤407所得到的相似度进行排序。

在本实施例中，步骤407共计算出6个相似度，对其按照从大到小的顺序排序后可以得到以下序列：0.81、0.74、0.69、0.67、0.56、0.30，与该序列中的相似度对应的同义词分别是：“水晶”、“晶粒”、“冰雨”、“冰柜”、“冰雪”、“冰刀”。

然后，将与排在前面的预定数目的相似度相对应的同义词提取到所述集合中。

在本实施例中，由于预定数目K＝5，而未登录词总共有6个同义词，所以选用从大到小排列的相似度中的前5个相似度，即选用0.81、0.74、0.69、0.67、0.56，并且将与这些相似度对应的同义词“水晶”、“晶粒”、“冰雨”、“冰柜”、“冰雪”提取出来放入一个集合中，作为该集合的成员。

在步骤409，将与该集合中的、属于相同类别的同义词相对应的相似度进行求和。

在此步骤中，首先可以确定未登录词的同义词所属的类别，这可以按照步骤304中所述的方式来进行，从而得到与步骤304相同的结果，即属于类别C2的词有“冰柜”，属于类别C3的词有“水晶”、“晶粒”、“晶体”，属于类别C4的词有“冰雨”、“冰雪”。由此可见，步骤408所提取的集合中所包含的同义词分别属于类别C2、C3和C4。

接着，将未登录词的上下文与属于相同类别的同义词的上下文之间的相似度求和，从而得到该未登录词与每个类别之间的相似度，例如：

Sim(冰晶，C2)＝Sim(context(冰晶)，context(冰柜))＝0.67，

Sim(冰晶，C3)＝Sim(context(冰晶)，context(水晶))+Sim(context(冰晶)，context(晶粒))＝1.55，

Sim(冰晶，C4)＝Sim(context(冰晶)，context(冰雨))+Sim(context(冰晶)，context(冰雪))＝1.25。

在步骤410，根据求和后的相似度确定未登录词所属的类别。

对于步骤409所得到的未登录词与每个类别之间的相似度进行排序，可以得到未登录词“冰晶”与类别C3的相似度最高，因此可以将类别C3确定为未登录词的类别。

另外，在本发明的一些实施例中，还可以利用其它规则来根据求和后的相似度确定未登录词所属的类别。例如，可以不选取未登录词与每个类别之间的最大相似度，而将与这些相似度中的中间值对应的类别确定为未登录词的类别。

在步骤501，接收一个未登录词。

在该实施例中，假设接收的未登录词是“电机厂”。

在步骤502，从词典选择与未登录词共享一个或多个构词成分的词，作为未登录词的同义词。

与步骤302类似，在步骤502基于构词规则为该未登录词所选择的同义词是“通电”、“来电”、“打电话”、“电器厂”、“厂长”、“厂主”。

在步骤503，从文集生成未登录词的上下文。

在步骤504，从文集生成同义词的上下文。

可以利用加窗的方式、依存树的方式或者本领域技术人员公知的其它方式生成未登录词的同义词的上下文，具体实现方式已在步骤202中描述，在此不再赘述。

在步骤505，计算未登录词的上下文与同义词的上下文之间的相似度。

此步骤与步骤407类似，在此不再赘述。在步骤505可以得到未登录词“电机厂”的上下文与其同义词的上下文之间的相似度为：

Sim(context(电机厂)，context(通电))＝0.10，

Sim(context(电机厂)，context(来电))＝0.27，

Sim(context(电机厂)，context(打电话))＝0.45，

Sim(context(电机厂)，context(电器厂))＝0.30，

Sim(context(电机厂)，context(厂长))＝0.30，

Sim(context(电机厂)，context(厂主))＝0.20。

在步骤506，统计同义词所属的类别。

此步骤可以按照步骤304中所述的方式来进行，可以得到：属于类别C1的词有“通电”，属于类别C2的词有“来电”和“打电话”，属于类别C3的词有“电器厂”，属于类别C4的词有“厂长”、“厂主”。

在步骤507，接收与同义词相关联的预定加权因子。

对于类别的判断，一个词的上下文非常重要，另外一个词的结构信息对于类别的判断也非常重要。因此，本发明提出了了混合相似度的概念，即利用词的结构信息对未登录词的上下文与同义词上下文的相似度进行加权。在本实施例中，词的结构信息例如是预定加权因子λ(w，w_i)。利用预定加权因子对未登录词的上下文与同义词上下文的相似度进行加权具体如下式所示：

Sim(w，w_i)＝λ(w，w_i)*CTS(w，w_i) (2)

其中w为未登录词，w_i是未登录词的同义词，λ(w，w_i)指基于未登录词w及其同义词上下文w_i的结构信息的加权因子，而CTS(w，w_i)是未登录词w的上下文与同义词上下文w_i的相似度。

可以使用多种方式指定该加权因子。在一个实施例中，加权因子的指定需要满足以下策略：

如果未登录词w和同义词w_i共享最后一个字符，同时共享倒数第二个字符，那么将加权因子λ(w，w_i)设定为λ₁，例如λ(铝合金，铁合金)＝λ₁；

否则，如果未登录词w和同义词w_i共享第一字符，同时共享最后一个字符，那么将加权因子λ(w，w_i)设定为λ₂，例如λ(电机厂，电器厂)＝λ₂；

否则，如果未登录词w和同义词w_i共享第一字符或者共享最后一个字符，那么将加权因子λ(w，w_i)设定为λ₃，例如λ(基民，市民)＝λ₃；

在其他情形下，将加权因子λ(w，w_i)设定为λ₄。

其中λ₁≥λ₂≥λ₃≥λ₄，而且对应的数字通过实验可以获得。

在步骤508，利用预定加权因子，对与相关联的同义词相对应的相似度进行加权。

在一个例子中，根据步骤507可以将λ(电机厂，通电)、λ(电机厂，来电)、λ(电机厂，打电话)、λ(电机厂，厂长)、λ(电机厂，厂主)分别设定为λ4＝0.382，并将λ(电机厂，电器厂)设定为λ2＝10。

可以将根据步骤507得到的上述加权因子以及根据步骤505得到的未登录词的上下文与同义词的上下文之间的相似度应用于公式(2)，从而如下所示的得到加权后的相似度：

Sim(电机厂，通电)＝Sim(context(电机厂)，context(通电))*λ4＝0.10*λ4＝0.038，

Sim(电机厂，来电)＝Sim(context(电机厂)，context(来电))*λ4＝0.27*λ4＝0.103，

Sim(电机厂，打电话)＝Sim(context(电机厂)，context(打电话))*λ4＝0.45*λ4＝0.172，

Sim(电机厂，电器厂)＝Sim(context(电机厂)，context(电器厂))*λ4＝0.30*λ2＝3.0，

Sim(电机厂，厂长)＝Sim(context(电机厂)，context(厂长))*λ4＝0.30*λ4＝0.115，

Sim(电机厂，厂主)＝Sim(context(电机厂)，context(厂主))*λ4＝0.20*λ4＝0.076。

在步骤509，根据相似度，从未登录词的同义词中提取一个集合。

此步骤与步骤408类似。首先，可以按照大小顺序对步骤507所得到的加权后的相似度进行排序。然后，将与排在前面的预定数目的相似度相对应的同义词提取到所述集合中。

在本实施例中，同样假设预定数目K＝5，所以从大到小排列的相似度中的前5个相似度被选用，即选用3.0，0.172、0.115、0.103、0.076，并且将与这些相似度对应的同义词“电器厂”、“打电话”、“厂长”、“来电”、“厂主”提取出来放入一个集合中，作为该集合的成员。

在步骤510，将与所提取的集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和。

该步骤510与步骤409类似。

首先根据步骤506的结果可知，所提取的集合中的“来电”和“打电话”的类别是C2，“电器厂”的类别是C3，“厂长”和“厂主”的类别是C4。由此可见，步骤509所提取的集合中所包含的同义词分别属于类别C2、C3和C4，这些类别也即未登录词的候选类别。

Sim(电机厂，C2)＝Sim(电机厂，打电话)+Sim(电机厂，来电)＝0.275，

Sim(电机厂，C3)＝Sim(电机厂，电器厂)＝3.0，

Sim(电机厂，C4)＝Sim(电机厂，厂长)+Sim(电机厂，厂主)＝0.191。

在步骤511，根据求和后的相似度确定未登录词所属的类别。

对于步骤510所得到的未登录词与每个类别之间的相似度进行排序，可以得到未登录词“电机厂”与类别C3的相似度最高，因此可以将类别C3确定为未登录词的类别。

本发明通过基于构词规则从词典中选择未登录词的同义词以及从文集生成未登录词的上下文，从而根据未登录词的上下文以及同义词，确定未登录词所属的类别。本发明解决了现有技术的低性能的问题；解决了自动从现有词典中基于构词规则选择同义词以实现高覆盖度的类别选取问题；并且解决了如何将词结构信息和上下文信息融合来准确计算词义相似度的问题。

本发明的方法可以在软件、硬件、或软件和硬件的结合中实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器、个人计算机(PC)或大型机来执行。

应当注意，为了使本发明更容易理解，上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。

提供本发明的说明书的目的是为了说明和描述，而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言，许多修改和变更都是显而易见的。

因此，选择并描述实施方式是为了更好地解释本发明的原理及其实际应用，并使本领域普通技术人员明白，在不脱离本发明实质的前提下，所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims

1.一种用于确定未登录词的类别的方法，包括：

基于构词规则从词典中选择所述未登录词的同义词；

从文集生成所述未登录词的上下文；以及

根据所述未登录词的上下文以及所述同义词，确定所述未登录词所属的类别；

其中可以通过以下任一种方式来根据所述未登录词的上下文以及所述同义词确定所述未登录词所属的类别：

统计所述同义词所属的类别；

从文集生成每个类别所包含的所有词的上下文，作为所述每个类别的上下文；

计算所述未登录词的上下文与每个类别的上下文之间的相似度；以及

将与最大相似度相对应的类别确定为所述未登录词所属的类别；

或

从文集生成所述同义词的上下文；

计算所述未登录词的上下文与所述同义词的上下文之间的相似度；

根据所述相似度，从所述同义词中提取一个集合；

将与所述集合中的、属于相同类别的同义词相对应的相似度进行求和；以及

根据求和后的相似度确定未登录词所属的类别；

或

从文集生成所述同义词的上下文；

统计所述同义词所属的类别；

接收与所述同义词相关联的预定加权因子；

利用接收的预定加权因子，对与相关联的同义词相对应的相似度进行加权；

根据所述相似度，从所述同义词中提取一个集合；

将与所述集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和；以及

根据求和后的相似度确定未登录词所属的类别。

2.根据权利要求1所述的方法，其中所述构词规则包括构词成分、成分属性和成分关系。

3.根据权利要求2所述的方法，其中基于构词规则从词典中选择所述未登录词的同义词的步骤包括：

从所述词典选择与所述未登录词共享一个或多个构词成分的词，作为所述未登录词的同义词。

4.根据权利要求2所述的方法，其中基于构词规则从词典中选择所述未登录词的同义词的步骤包括：

确定所述未登录词的词性；

从所述词典选择与所述未登录词共享一个或多个构词成分的词；以及

在所选择的词中挑选与所述未登录词的词性相同的词，作为所述未登录词的同义词。

5.根据权利要求1所述的方法，其中从文集生成所述未登录词的上下文的步骤包括：

在所述文集中查找所述未登录词；

以加窗的方式截取与所述未登录词邻近的字；

对所截取的与所述未登录词邻近的字进行分词；以及

确定经过分词后所得到的各个词的权重，以便将经过分词后所得到的各个词及其权重作为所述未登录词的上下文使用。

6.根据权利要求1所述的方法，其中从文集生成所述未登录词的上下文的步骤包括：

在文集中查找所述未登录词；以及

以依存树的方式分析所述未登录词的依存关系，以将所述依存关系作为所述未登录词的上下文使用。

7.根据权利要求1所述的方法，其中所述预定加权因子的指定满足以下策略：

如果未登录词与一个类别中的词共享最后一个字并且共享倒数第二个字，则将与所述类别相关联的预定加权因子设定为λ₁；否则，

如果未登录词与一个类别中的词共享第一个字并且共享最后一个字，则将与所述类别相关联的预定加权因子设定为λ₂；否则，

如果未登录词与一个类别中的词仅共享第一个字或者仅共享最后一个字，则将与所述类别相关联的预定加权因子设定为λ₃；否则

将与所述类别相关联的预定加权因子设定为λ₄，

其中λ₁≥λ₂≥λ₃≥λ₄。

8.根据权利要求1所述的方法，其中根据所述相似度从所述同义词中提取一个集合的步骤包括：

按照大小顺序对所述相似度进行排序；以及

将与排在前面的预定数目的相似度相对应的同义词提取到所述集合中。

9.一种用于确定未登录词的类别的设备，包括：

同义词选择器，被配置为基于构词规则从词典中选择所述未登录词的同义词；

上下文生成器，被配置为从文集生成所述未登录词的上下文；以及

类别确定器，被配置为根据所述未登录词的上下文以及所述同义词确定所述未登录词所属的类别；

其中，所述类别确定器包括：

用于统计所述同义词所属的类别的装置；

用于从文集生成每个类别所包含的所有词的上下文作为所述每个类别的上下文的装置；

用于计算所述未登录词的上下文与每个类别的上下文之间的相似度的装置；以及

用于将与最大相似度相对应的类别确定为所述未登录词所属的类别的装置；

或；

其中所述上下文生成器包括用于从文集生成所述同义词的上下文的装置，并且所述类别确定器包括：

用于计算所述未登录词的上下文与所述同义词的上下文之间的相似度的装置；

用于根据所述相似度从所述同义词中提取一个集合的装置；

用于将与所述集合中的、属于相同类别的同义词相对应的相似度进行求和的装置；以及

用于根据求和后的相似度确定未登录词所属的类别的装置；

或

用于统计所述同义词所属的类别的装置；

用于接收与所述同义词相关联的预定加权因子的装置；

用于利用接收的预定加权因子，对与相关联的同义词相对应的相似度进行加权的装置；

用于根据所述相似度从所述同义词中提取一个集合的装置；

用于将与所述集合中的、属于相同类别的同义词相对应的加权后的相似度进行求和的装置；以及

用于根据求和后的相似度确定未登录词所属的类别的装置。

10.根据权利要求9所述的设备，其中所述构词规则包括构词成分、成分属性和成分关系。

11.根据权利要求10所述的设备，其中所述同义词选择器包括：

用于从所述词典选择与所述未登录词共享一个或多个构词成分的词，作为所述未登录词的同义词的装置。

12.根据权利要求10所述的设备，其中所述同义词选择器包括：

用于确定所述未登录词的词性的装置；

用于从所述词典选择与所述未登录词共享一个或多个构词成分的词的装置；以及

用于在所选择的词中挑选与所述未登录词的词性相同的词，作为所述未登录词的同义词的装置。

13.根据权利要求9所述的设备，其中所述上下文生成器包括：

用于在文集中查找所述未登录词的装置；

用于以加窗的方式截取与所述未登录词邻近的字的装置；

用于对所截取的与所述未登录词邻近的字进行分词的装置；以及

用于确定经过分词后所得到的各个词的权重，以便将经过分词后所得到的各个词及其权重作为所述未登录词的上下文的装置。

14.根据权利要求9所述的设备，其中所述上下文生成器包括：

用于在文集中查找所述未登录词的装置；以及

用于以依存树的方式分析所述未登录词的依存关系，以将所述依存关系作为所述未登录词的上下文使用的装置。

15.根据权利要求9所述的设备，其中所述预定加权因子的指定满足以下策略：

将与所述类别相关联的预定加权因子设定为λ₄，

其中λ₁≥λ₂≥λ₃≥λ₄。

16.根据权利要求9所述的设备，其中所述用于根据所述相似度从所述同义词中提取一个集合的装置包括：

用于按照大小顺序对所述相似度进行排序的装置；以及

用于将与排在前面的预定数目的相似度相对应的同义词提取到所述集合中的装置。