CN101271449B

CN101271449B - 裁减词表和为汉字串注音的方法及装置

Info

Publication number: CN101271449B
Application number: CN2007100891190A
Authority: CN
Inventors: 任登君; 王海峰; 李国华
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-19
Filing date: 2007-03-19
Publication date: 2010-09-22
Anticipated expiration: 2027-03-19
Also published as: CN101271449A

Abstract

本发明提供了裁减词表和为汉字串注音的方法及装置。根据本发明的一个方面，提供了一种裁减词表的方法，其中，上述词表包括多个命名实体及其读音；上述方法包括：利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系；以及根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系，对上述词表进行裁减。

Description

裁减词表和为汉字串注音的方法及装置

技术领域

本发明涉及信息处理技术，具体地，涉及词表裁减技术以及中文分词和多音字拼音标注技术。

背景技术

通常，在中文文本中，词和词之间没有分隔符号，从而汉语自动分词的任务，就是由机器在中文文本中词与词之间自动加上空格。分词面临两个挑战，一个是歧义切分，另一个是新词识别。而且，中文多音字在不同的词语中有不同的读音。通常的中文分词和多音字拼音标注系统在词表中存储了大量的词语和多音字的拼音，以保证能够输出正确的分词和注音结果。

关于分词技术，参考以下文献：

1.孙茂松(北京清华大学计算机系)和邹嘉彦(香港城市大学语言资讯科学研究中心)的文献“汉语自动分词研究评述”，《当代语言学》，2001年第1期，pp.22-32(在下文中称为文献1)，在此通过参考引入其整个内容；

2.Jianfeng Gao，Mu Li和Chang-Ning Huang的文献“ImprovedSource-channel Models for Chinese Word Segmentation”，2003，In Proc.ofthe41st Annual Meeting of Association for Computational Linguis-tics，(ACL-2003)，pages272-279(在下文中称为文献2)，在此通过参考引入其整个内容；以及

3.Jianfeng Gao，Mu Li，Andi Wu和Chang-Ning Huang的文献“Chinese Word Segmentation and Named Entity Recognition：A PragmaticApproach”，2005，Computational Linguistics，31(4)：531-574(在下文中称为文献3)，在此通过参考引入其整个内容。

命名实体识别(Named Entities Recognition)属于分词中新词识别的范畴。命名实体不断出现而且数量巨大，所以不可能全部收录到词典中。命名实体的构成都有一定的规律，从而可以根据其规律，对其进行识别。

关于命名实体识别，参考以下文献：

1.Sun Jian，Ming Zhou和Jianfeng Gao的文献“Chinese named entityidentification using class-based language model”，2003，InternationalJournal of Computational Linguistics and Chinese Language(在下文中称为文献4)，在此通过参考引入其整个内容；

2.Borthwick，A.的博士论文“A maximum entropy approach tonamed entity recognition”，New York University，1999(在下文中称为文献5)，在此通过参考引入其整个内容；

3.Wu Y.，Zhao J.和Xu B.的文献“Chinese named entity recognitioncombining a statistical model with human knowledge”，In Proceedings ofthe ACL 2003 Workshop on Multilingual and Mixed-language NamedEntity Recognition，Sapporo，Japan，2003，65-72(在下文中称为文献6)，在此通过参考引入其整个内容；以及

4.上述文献3。

然而，大规模词表需要很大的存储空间，在实际应用中，存储空间都有限。

发明内容

为了解决上述现有技术中存在的问题，本发明提供了裁减词表的方法，为汉字串注音的方法，裁减词表的装置，以及为汉字串注音的装置。

根据本发明的一个方面，提供了一种裁减词表的方法，其中，上述词表包括多个命名实体及其读音；上述方法包括：利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系；以及根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系，对上述词表进行裁减

根据本发明的另一个方面，提供了一种为汉字串注音的方法，其中，上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体，上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述裁减词表的方法获得的；上述方法包括：对上述汉字串进行分词并识别上述至少一个命名实体及其属性；以及利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词和识别的汉字串注音。

根据本发明的另一个方面，提供了一种裁减词表的装置，其中，上述词表包括多个命名实体及其读音；上述装置包括：关系获得单元，利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系；以及词表裁减单元，根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系，对上述词表进行裁减。

根据本发明的另一个方面，提供了一种为汉字串注音的装置，其中，上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体，上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述裁减词表的装置获得的；上述装置包括：分词单元，对上述汉字串进行分词并识别上述至少一个命名实体及其属性；以及注音单元，利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词和识别的汉字串注音。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的一个实施例的裁减词表的方法的流程图；

图2是根据本发明的实施例的裁减词表的详细过程的一个实例的示意图；

图3是根据本发明的实施例的分割包含多音字的命名实体词表的详细过程的一个实例的示意图；

图4是根据本发明的另一个实施例的为汉字串注音的方法的流程图；

图5是根据本发明的另一个实施例的裁减词表的装置的方框图；以及

图6是根据本发明的另一个实施例的为汉字串注音的装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

裁减词表的方法

图1是根据本发明的一个实施例的裁减词表的方法的流程图。如图1所示，首先，在步骤S11，利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系。具体地，首先，从进行了分词、词性标注和拼音标注的语料库中，利用命名实体识别技术获得所有的命名实体，其中，命名实体识别技术参考上述文献3至文献6，在此省略其说明。然而，应该理解，本发明并不限于上述文献，可以使用本领域的技术人员公知的任何命名实体识别技术，只要能够识别上述语料库中包括的多个命名实体即可。然后，从那些包含多音字的命名实体中得到命名实体的属性与命名实体中多音字的读音之间的关系。

具体地，命名实体的属性包括入名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议，可参考http://acl.ldc.upenn.edu/muc7/。

在本实施例中，命名实体的属性与命名实体中多音字的读音之间的关系为例如：

“单盈(shan ying)”中的“单”作为姓氏读音为“shan”，也就是在属性为“人名”的命名实体中，“单”的读音为“shan”，其它情况读音为“dan”；

“海龙大厦(hai long da sha)”中的“厦”作为地名读音为“sha”，而“厦门(xia men)”中的“厦”作为地名读音为“xia”，也就是在属性为“地名”的命名实体中，多音字“厦”具有多个读音“sha”和“xia”

应该理解，这里示出的实例只是用于说明目的，本发明并不限于此。

最后，在步骤S12，根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系，对词表进行裁减。具体地，上述词表包括多个命名实体和命名实体的读音以及大量的词和字及其读音。

下面参考图2详细描述上述步骤S12中对词表进行裁减的详细过程。

图2是根据本发明的实施例的裁减词表的详细过程的一个实例的示意图。在图2中，首先，在步骤S21，对初始词表201进行分割，例如，分割成：非命名实体词表202，其中不包含命名实体；不包含多音字的命名实体词表203，其中包含命名实体但是命名实体中不包含多音字；以及包含多音字的命名实体词表204，其中包含命名实体而且命名实体中包含多音字。

接着，在步骤S22，利用在上述步骤S11中获得的命名实体的属性与命名实体中多音字的读音之间的关系(此处标为205)，对包含多音字的命名实体词表204进行分割，具体的分割过程在下文中参考图3进行详细描述，在此不再赘述。

在本实施例中，将包含多音字的命名实体词表204分割为能够正确注音的命名实体词表206和不能正确注音的命名实体词表207。同样，在下文中参考图3对能够正确注音的命名实体词表206和不能正确注音的命名实体词表207进行详细描述，在此不再赘述。

接着，在步骤S23，对由不包含多音字的命名实体词表203和能够正确注音的命名实体词表206构成的可删除的命名实体词表208进行删除。在一个可选实施例中，可以将可删除的命名实体词表208全部删除。在另一个可选实施例中，可以利用大规模语料库209，对可删除的命名实体词表208中词的出现次数进行统计，并将可删除的命名实体词表208中出现次数少的词优先删除。注意，这里使用的大规模语料库209可以是上述进行了分词、词性标注和拼音标注的语料库，也可以是本领域的技术人员公知的其它语料库。应该理解，本发明并不限于上述两个可选实施例，可以利用本领域的技术人员公知的任何方法根据实际需要对可删除的命名实体词表208中的部分或全部命名实体进行删除。

最后，将非命名实体词表202和可删除的命名实体词表208中的剩余部分合并作为裁减后的词表210。

下面参考图3详细描述上述步骤S22中对包含多音字的命名实体词表204进行分割的详细过程。

图3是根据本发明的实施例的分割包含多音字的命名实体词表的详细过程的一个实例的示意图。在图3中，首先，在步骤S31，利用在上述步骤S11中获得的命名实体的属性与命名实体中多音字的读音之间的关系205以及上述进行了分词、词性标注和拼音标注的语料库，获取在同一属性的命名实体中有多种读音的多音字集合P，例如在上述实例中，在属性为“地名”的命名实体中的多音字“厦”具有多种读音，从而“厦”为多音字集合P中的一个多音字。然而，在属性为“人名”的命名实体中的多音字“单”的读音只可能是“shan”，从而“单”不属于多音字集合P。

接着，在步骤S32，判断命名实体中是否具有多音字集合P中的多音字。

如果在步骤S32中判断命名实体中不具有多音字集合P中的多音字，例如，上述属性为“入名”并姓氏为“单”的命名实体中，没有多音字集合P中的多音字，则该命名实体是根据命名实体的属性和多音字读音之间的关系能够正确读音的命名实体，其属于能够正确注音的命名实体词表206。

否则，如果在步骤S32中判断命名实体中具有多音字集合P中的多音字，例如，在上述属性为“地名”并包括“厦”的命名实体中具有多音字集合P中的多音字“厦(xia或sha)”，则该命名实体是根据命名实体的属性和多音字读音之间的关系不能正确读音的命名实体，其属于不能正确注音的命名实体词表207。

通过本实施例的裁减词表的方法，删除了词表中的非必须词条，即删除了非必须的不断扩展的命名实体词条，从而在保证中文分词和多音字拼音标注系统性能的基础上，减少了词表的存储空间。

为汉字串注音的方法

在同一发明构思下，图4是根据本发明的另一个实施例的为汉字串注音的方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

在图4中，首先，在步骤S41，利用进行了裁减的词表，对汉字串进行分词，在该汉字串中包括在上述进行了裁减的词表中没有的一个或多个命名实体，并利用命名实体识别技术识别上述一个或多个命名实体及其属性。其中，上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述参考图1的实施例描述的裁减词表的方法获得的，在此省略其说明。

下面以一个实例描述分词和命名实体识别的过程。

首先，输入一个的汉字串：

李晓军研究生命科学

接着，利用上述进行了裁减的词表对输入的汉字串进行分词，得到候选的分词方式为：

李晓军研究生命科学

研究生命科学

接着，利用命名实体识别技术对输入的汉字串中的命名实体进行识别，得到候选的命名实体：

李晓军/PER(人名)

李晓/PER(人名)

具体地，首先判断“李”是否具有命名实体属性，显然“李”是姓氏，具有命名实体属性。接着，判断“晓”能够作为人名用字，具有命名实体属性。接着，判断“军”能够作为人名用字，具有命名实体属性。最后，根据汉语人名不超过三个字，结束识别。从而，得到“李晓军”和“李晓”两个命名实体的候选。

接着，将上述两个候选集合并得到候选集合：

李晓军研究生命科学

李晓军

最后，使用维特比搜索在候选集合中搜索到最佳结果：

李晓军研究生命科学

关于分词技术的具体细节，参考上述文献1至文献3，然而，应该理解，本发明并不限于上述实例和上述文献，可以使用本领域的技术人员公知的任何分词技术，只要能够对包括一个或多个命名实体的汉字串进行分词即可。此外，关于命名实体识别技术的具体细节，参考上述文献3至文献6，然而，应该理解，本发明并不限于上述实例和上述文献，可以使用本领域的技术人员公知的任何命名实体识别技术，只要能够识别汉字串中包括的一个或多个命名实体即可。

最后，在步骤S42，利用进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词和识别的汉字串注音。

具体地，首先判断上述汉字串中包括的一个或多个命名实体是否包含多音字，如果该命名实体包含多音字，则根据上述命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音，否则，如果该命名实体不包含多音字，根据上述进行了裁减的词表，逐字为该命名实体注音。此外，根据上述进行了裁减的词表为上述汉字串中的其它词注音。

通过本实施例的为汉字串注音的方法，利用命名实体的属性与命名实体中多音字的读音之间的关系和进行了裁减的词表为命名实体中的多音字注音，从而在保证中文分词和多音字拼音标注系统性能的基础上，减少了系统的存储空间。

此外，本实施例的为汉字串注音的方法将命名实体识别技术应用于分词和多音字注音，命名实体识别技术不仅能识别出命名实体，而且能提供属性信息，该属性信息对命名实体中的多音字的注音非常有用。

裁减词表的装置

在同一发明构思下，图5是根据本发明的另一个实施例的裁减词表的装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图5所示，本实施例的裁减词表的装置500包括：关系获得单元501，利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系；以及词表裁减单元505，根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系，对包括多个命名实体及其读音的词表进行裁减。

具体地，关系获得单元501首先从进行了分词、词性标注和拼音标注的语料库中，利用命名实体识别技术获得所有的命名实体，其中，命名实体识别技术参考上述文献3至文献6，在此省略其说明。然而，应该理解，本发明并不限于上述文献，可以使用本领域的技术人员公知的任何命名实体识别技术，只要能够识别上述语料库中包括的多个命名实体即可。然后，从那些包含多音字的命名实体中得到命名实体的属性与命名实体中多音字的读音之间的关系。

具体地，命名实体的属性包括人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议，可参考http://acl.ldc.upenn.edu/muc7/。

“海龙大厦(hai long da sha)”中的“厦”作为地名读音为“sha”，而“厦门(xia men)”中的“厦”作为地名读音为“xia”，也就是在属性为“地名”的命名实体中，多音字“厦”具有多个读音“sha”和“xia”。

在本实施例中，词表裁减单元505根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系，对词表进行裁减。具体地，上述词表包括多个命名实体和命名实体的读音以及大量的词和字及其读音。

下面参考图2详细描述词表裁减单元505对词表进行裁减的详细过程。

接着，在步骤S23，对由不包含多音字的命名实体词表203和能够正确注音的命名实体词表206构成的可删除的命名实体词表208进行删除。在一个可选实施例中，可以将可删除的命名实体词表208全部删除。在另一个可选实施例中，可以利用大规模语料库209，对可删除的命名实体词表208中词的出现次数进行统计，并将可删除的命名实体词表208中出现次数少的词优先删除。注意，这里使用的大规模语料库209可以是上述进行了分词、词性标注和拼音标注的语料库，也可以是本领域的技术人员公知的其它语料库。应该理解，本发明并不限于上述两个可选实施例，可以利用本领域的技术人员公知的任何装置根据实际需要对可删除的命名实体词表208中的部分或全部命名实体进行删除。

如果在步骤S32中判断命名实体中不具有多音字集合P中的多音字，例如，上述属性为“人名”并姓氏为“单”的命名实体中，没有多音字集合P中的多音字，则该命名实体是根据命名实体的属性和多音字读音之间的关系能够正确读音的命名实体，其属于能够正确注音的命名实体词表206。

本实施例的裁减词表的装置500及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现

通过本实施例的裁减词表的装置500，删除了词表中的非必须词条，即删除了非必须的不断扩展的命名实体词条，从而在保证中文分词和多音字拼音标注系统性能的基础上，减少了词表的存储空间。

为汉字串注音的装置

在同一发明构思下，图6是根据本发明的另一个实施例的为汉字串注音的装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图6所示，本实施例的为汉字串注音的装置600包括：分词单元601，对包括一个或多个命名实体的汉字串进行分词并识别一个或多个命名实体及其属性；以及注音单元605，利用进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词的汉字串注音。其中，上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述裁减词表的装置500获得的，在此省略其说明。

具体地，分词单元601利用进行了裁减的词表，对汉字串进行分词，在该汉字串中包括在上述进行了裁减的词表中没有的一个或多个命名实体，并利用命名实体识别技术识别上述一个或多个命名实体及其属性。

下面以一个实例描述分词单元601进行分词和命名实体识别的过程。

首先，输入一个的汉字串：

李晓军研究生命科学

研究生命科学

李晓军/PER(人名)

李晓/PER(人名)

接着，将上述两个候选集合并得到候选集合：

李晓军研究生命科学

李晓军

最后，使用维特比搜索在候选集合中搜索到最佳结果：

李晓军研究生命科学

在本实施例中，注音单元605利用进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词和识别的汉字串注音。

具体地，注音单元605首先判断上述汉字串中包括的一个或多个命名实体是否包含多音字，如果该命名实体包含多音字，则根据上述命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音，否则，如果该命名实体不包含多音字，根据上述进行了裁减的词表，逐字为该命名实体注音。此外，根据上述进行了裁减的词表为上述汉字串中的其它词注音。

本实施例的为汉字串注音的装置600及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现

通过本实施例的为汉字串注音的装置600，利用命名实体的属性与命名实体中多音字的读音之间的关系和进行了裁减的词表为命名实体中的多音字注音，从而在保证中文分词和多音字拼音标注系统性能的基础上，减少了系统的存储空间。

此外，本实施例的为汉字串注音的装置600将命名实体识别技术应用于分词和多音字注音，命名实体识别技术不仅能识别出命名实体，而且能提供属性信息，该属性信息对命名实体中的多音字的注音非常有用。

以上虽然通过一些示例性的实施例详细地描述了本发明的裁减词表的方法，为汉字串注音的方法，裁减词表的装置，以及为汉字串注音的装置，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种裁减词表的方法，其中，上述词表包括多个命名实体及其读音；上述方法包括：

利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系；以及

根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系，对上述词表进行裁减；

其中，上述对上述词表进行裁减的步骤包括：删除不包含多音字的命名实体的至少一部分，和/或删除根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分。

2.根据权利要求1所述的裁减词表的方法，其中，上述删除根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分的步骤包括：

根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系，利用上述语料库，统计获得在同一属性的命名实体中有多种读音的多音字集合；以及

如果在命名实体中不具有上述多音字集合中的多音字，则确定该命名实体为根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体。

3.根据权利要求1所述的裁减词表的方法，其中，删除不包含多音字的命名实体的至少一部分的步骤包括：利用语料库统计上述不包含多音字的命名实体出现的次数；以及将出现次数少的上述不包含多音字的命名实体从上述词表中删除。

4.根据权利要求1或2所述的裁减词表的方法，其中，删除根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分的步骤包括：利用语料库统计上述能够正确注音的包含多音字的命名实体出现的次数；以及将出现次数少的根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体从上述词表中删除。

5.根据权利要求1所述的裁减词表的方法，其中，上述命名实体的属性包括人名、地名、组织机构名称、商品名称、时间、金钱和数字。

6.一种为汉字串注音的方法，其中，上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体，上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据权利要求1-5中任何一项所述的裁减词表的方法获得的；上述方法包括：

对上述汉字串进行分词并识别上述至少一个命名实体及其属性；以及

利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词和识别的汉字串注音。

7.根据权利要求6所述的为汉字串注音的方法，其中，为上述进行了分词和识别的汉字串注音的步骤包括：

为上述至少一个命名实体的每一个注音；以及

为上述汉字串中的其它词注音；

其中，为上述至少一个命名实体的每一个注音的步骤包括：

判断该命名实体是否包含多音字；

如果该命名实体包含多音字，则根据命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音，否则，根据上述进行了裁减的词表，逐字为该命名实体注音。

8.一种裁减词表的装置，其中，上述词表包括多个命名实体及其读音；上述装置包括：

关系获得单元，利用进行了分词、词性标注和拼音标注的语料库，统计获得命名实体的属性与命名实体中多音字的读音之间的关系；以及

词表裁减单元，根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系，对上述词表进行裁减；

其中，上述词表裁减单元用于删除不包含多音字的命名实体的至少一部分，和/或删除根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分。

9.根据权利要求8所述的裁减词表的装置，其中，上述词表裁减单元用于：

根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系，利用上述语料库，统计获得在同一属性的命名实体中有多种读音的多音字集合；以及

10.根据权利要求8所述的裁减词表的装置，其中，上述词表裁减单元用于：利用语料库统计上述不包含多音字的命名实体出现的次数；以及将出现次数少的上述不包含多音字的命名实体从上述词表中删除。

11.根据权利要求8或9所述的裁减词表的装置，其中，上述词表裁减单元用于：利用语料库统计上述能够正确注音的包含多音字的命名实体出现的次数；以及将出现次数少的根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体从上述词表中删除。

12.根据权利要求8所述的裁减词表的装置，其中，上述命名实体的属性包括人名、地名、组织机构名称、商品名称、时间、金钱和数字。

13.一种为汉字串注音的装置，其中，上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体，上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据权利要求8-12中任何一项所述的裁减词表的装置获得的；上述装置包括：

分词单元，对上述汉字串进行分词并识别上述至少一个命名实体及其属性；以及

注音单元，利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系，为上述进行了分词和识别的汉字串注音。

14.根据权利要求13所述的为汉字串注音的装置，其中，上述注音单元用于：

为上述至少一个命名实体的每一个注音；以及

为上述汉字串中的其它词注音；

其中，为上述至少一个命名实体的每一个注音的步骤包括：

判断该命名实体是否包含多音字；