CN101271449B - 裁减词表和为汉字串注音的方法及装置 - Google Patents

裁减词表和为汉字串注音的方法及装置 Download PDF

Info

Publication number
CN101271449B
CN101271449B CN2007100891190A CN200710089119A CN101271449B CN 101271449 B CN101271449 B CN 101271449B CN 2007100891190 A CN2007100891190 A CN 2007100891190A CN 200710089119 A CN200710089119 A CN 200710089119A CN 101271449 B CN101271449 B CN 101271449B
Authority
CN
China
Prior art keywords
named entity
mentioned
polyphone
vocabulary
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100891190A
Other languages
English (en)
Other versions
CN101271449A (zh
Inventor
任登君
王海峰
李国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2007100891190A priority Critical patent/CN101271449B/zh
Publication of CN101271449A publication Critical patent/CN101271449A/zh
Application granted granted Critical
Publication of CN101271449B publication Critical patent/CN101271449B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了裁减词表和为汉字串注音的方法及装置。根据本发明的一个方面,提供了一种裁减词表的方法,其中,上述词表包括多个命名实体及其读音;上述方法包括:利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减。

Description

裁减词表和为汉字串注音的方法及装置
技术领域
本发明涉及信息处理技术,具体地,涉及词表裁减技术以及中文分词和多音字拼音标注技术。
背景技术
通常,在中文文本中,词和词之间没有分隔符号,从而汉语自动分词的任务,就是由机器在中文文本中词与词之间自动加上空格。分词面临两个挑战,一个是歧义切分,另一个是新词识别。而且,中文多音字在不同的词语中有不同的读音。通常的中文分词和多音字拼音标注系统在词表中存储了大量的词语和多音字的拼音,以保证能够输出正确的分词和注音结果。
关于分词技术,参考以下文献:
1.孙茂松(北京清华大学计算机系)和邹嘉彦(香港城市大学语言资讯科学研究中心)的文献“汉语自动分词研究评述”,《当代语言学》,2001年第1期,pp.22-32(在下文中称为文献1),在此通过参考引入其整个内容;
2.Jianfeng Gao,Mu Li和Chang-Ning Huang的文献“ImprovedSource-channel Models for Chinese Word Segmentation”,2003,In Proc.ofthe41st Annual Meeting of Association for Computational Linguis-tics,(ACL-2003),pages272-279(在下文中称为文献2),在此通过参考引入其整个内容;以及
3.Jianfeng Gao,Mu Li,Andi Wu和Chang-Ning Huang的文献“Chinese Word Segmentation and Named Entity Recognition:A PragmaticApproach”,2005,Computational Linguistics,31(4):531-574(在下文中称为文献3),在此通过参考引入其整个内容。
命名实体识别(Named Entities Recognition)属于分词中新词识别的范畴。命名实体不断出现而且数量巨大,所以不可能全部收录到词典中。命名实体的构成都有一定的规律,从而可以根据其规律,对其进行识别。
关于命名实体识别,参考以下文献:
1.Sun Jian,Ming Zhou和Jianfeng Gao的文献“Chinese named entityidentification using class-based language model”,2003,InternationalJournal of Computational Linguistics and Chinese Language(在下文中称为文献4),在此通过参考引入其整个内容;
2.Borthwick,A.的博士论文“A maximum entropy approach tonamed entity recognition”,New York University,1999(在下文中称为文献5),在此通过参考引入其整个内容;
3.Wu Y.,Zhao J.和Xu B.的文献“Chinese named entity recognitioncombining a statistical model with human knowledge”,In Proceedings ofthe ACL 2003 Workshop on Multilingual and Mixed-language NamedEntity Recognition,Sapporo,Japan,2003,65-72(在下文中称为文献6),在此通过参考引入其整个内容;以及
4.上述文献3。
然而,大规模词表需要很大的存储空间,在实际应用中,存储空间都有限。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了裁减词表的方法,为汉字串注音的方法,裁减词表的装置,以及为汉字串注音的装置。
根据本发明的一个方面,提供了一种裁减词表的方法,其中,上述词表包括多个命名实体及其读音;上述方法包括:利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减
根据本发明的另一个方面,提供了一种为汉字串注音的方法,其中,上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体,上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述裁减词表的方法获得的;上述方法包括:对上述汉字串进行分词并识别上述至少一个命名实体及其属性;以及利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。
根据本发明的另一个方面,提供了一种裁减词表的装置,其中,上述词表包括多个命名实体及其读音;上述装置包括:关系获得单元,利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及词表裁减单元,根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减。
根据本发明的另一个方面,提供了一种为汉字串注音的装置,其中,上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体,上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述裁减词表的装置获得的;上述装置包括:分词单元,对上述汉字串进行分词并识别上述至少一个命名实体及其属性;以及注音单元,利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的裁减词表的方法的流程图;
图2是根据本发明的实施例的裁减词表的详细过程的一个实例的示意图;
图3是根据本发明的实施例的分割包含多音字的命名实体词表的详细过程的一个实例的示意图;
图4是根据本发明的另一个实施例的为汉字串注音的方法的流程图;
图5是根据本发明的另一个实施例的裁减词表的装置的方框图;以及
图6是根据本发明的另一个实施例的为汉字串注音的装置的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
裁减词表的方法
图1是根据本发明的一个实施例的裁减词表的方法的流程图。如图1所示,首先,在步骤S11,利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系。具体地,首先,从进行了分词、词性标注和拼音标注的语料库中,利用命名实体识别技术获得所有的命名实体,其中,命名实体识别技术参考上述文献3至文献6,在此省略其说明。然而,应该理解,本发明并不限于上述文献,可以使用本领域的技术人员公知的任何命名实体识别技术,只要能够识别上述语料库中包括的多个命名实体即可。然后,从那些包含多音字的命名实体中得到命名实体的属性与命名实体中多音字的读音之间的关系。
具体地,命名实体的属性包括入名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议,可参考http://acl.ldc.upenn.edu/muc7/
在本实施例中,命名实体的属性与命名实体中多音字的读音之间的关系为例如:
“单盈(shan ying)”中的“单”作为姓氏读音为“shan”,也就是在属性为“人名”的命名实体中,“单”的读音为“shan”,其它情况读音为“dan”;
“海龙大厦(hai long da sha)”中的“厦”作为地名读音为“sha”,而“厦门(xia men)”中的“厦”作为地名读音为“xia”,也就是在属性为“地名”的命名实体中,多音字“厦”具有多个读音“sha”和“xia”
应该理解,这里示出的实例只是用于说明目的,本发明并不限于此。
最后,在步骤S12,根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对词表进行裁减。具体地,上述词表包括多个命名实体和命名实体的读音以及大量的词和字及其读音。
下面参考图2详细描述上述步骤S12中对词表进行裁减的详细过程。
图2是根据本发明的实施例的裁减词表的详细过程的一个实例的示意图。在图2中,首先,在步骤S21,对初始词表201进行分割,例如,分割成:非命名实体词表202,其中不包含命名实体;不包含多音字的命名实体词表203,其中包含命名实体但是命名实体中不包含多音字;以及包含多音字的命名实体词表204,其中包含命名实体而且命名实体中包含多音字。
接着,在步骤S22,利用在上述步骤S11中获得的命名实体的属性与命名实体中多音字的读音之间的关系(此处标为205),对包含多音字的命名实体词表204进行分割,具体的分割过程在下文中参考图3进行详细描述,在此不再赘述。
在本实施例中,将包含多音字的命名实体词表204分割为能够正确注音的命名实体词表206和不能正确注音的命名实体词表207。同样,在下文中参考图3对能够正确注音的命名实体词表206和不能正确注音的命名实体词表207进行详细描述,在此不再赘述。
接着,在步骤S23,对由不包含多音字的命名实体词表203和能够正确注音的命名实体词表206构成的可删除的命名实体词表208进行删除。在一个可选实施例中,可以将可删除的命名实体词表208全部删除。在另一个可选实施例中,可以利用大规模语料库209,对可删除的命名实体词表208中词的出现次数进行统计,并将可删除的命名实体词表208中出现次数少的词优先删除。注意,这里使用的大规模语料库209可以是上述进行了分词、词性标注和拼音标注的语料库,也可以是本领域的技术人员公知的其它语料库。应该理解,本发明并不限于上述两个可选实施例,可以利用本领域的技术人员公知的任何方法根据实际需要对可删除的命名实体词表208中的部分或全部命名实体进行删除。
最后,将非命名实体词表202和可删除的命名实体词表208中的剩余部分合并作为裁减后的词表210。
下面参考图3详细描述上述步骤S22中对包含多音字的命名实体词表204进行分割的详细过程。
图3是根据本发明的实施例的分割包含多音字的命名实体词表的详细过程的一个实例的示意图。在图3中,首先,在步骤S31,利用在上述步骤S11中获得的命名实体的属性与命名实体中多音字的读音之间的关系205以及上述进行了分词、词性标注和拼音标注的语料库,获取在同一属性的命名实体中有多种读音的多音字集合P,例如在上述实例中,在属性为“地名”的命名实体中的多音字“厦”具有多种读音,从而“厦”为多音字集合P中的一个多音字。然而,在属性为“人名”的命名实体中的多音字“单”的读音只可能是“shan”,从而“单”不属于多音字集合P。
接着,在步骤S32,判断命名实体中是否具有多音字集合P中的多音字。
如果在步骤S32中判断命名实体中不具有多音字集合P中的多音字,例如,上述属性为“入名”并姓氏为“单”的命名实体中,没有多音字集合P中的多音字,则该命名实体是根据命名实体的属性和多音字读音之间的关系能够正确读音的命名实体,其属于能够正确注音的命名实体词表206。
否则,如果在步骤S32中判断命名实体中具有多音字集合P中的多音字,例如,在上述属性为“地名”并包括“厦”的命名实体中具有多音字集合P中的多音字“厦(xia或sha)”,则该命名实体是根据命名实体的属性和多音字读音之间的关系不能正确读音的命名实体,其属于不能正确注音的命名实体词表207。
通过本实施例的裁减词表的方法,删除了词表中的非必须词条,即删除了非必须的不断扩展的命名实体词条,从而在保证中文分词和多音字拼音标注系统性能的基础上,减少了词表的存储空间。
为汉字串注音的方法
在同一发明构思下,图4是根据本发明的另一个实施例的为汉字串注音的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
在图4中,首先,在步骤S41,利用进行了裁减的词表,对汉字串进行分词,在该汉字串中包括在上述进行了裁减的词表中没有的一个或多个命名实体,并利用命名实体识别技术识别上述一个或多个命名实体及其属性。其中,上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述参考图1的实施例描述的裁减词表的方法获得的,在此省略其说明。
下面以一个实例描述分词和命名实体识别的过程。
首先,输入一个的汉字串:
李晓军研究生命科学
接着,利用上述进行了裁减的词表对输入的汉字串进行分词,得到候选的分词方式为:
李晓军 研究生 命 科学
       研究 生命 科学
接着,利用命名实体识别技术对输入的汉字串中的命名实体进行识别,得到候选的命名实体:
李晓军/PER(人名)
李晓/PER(人名)
具体地,首先判断“李”是否具有命名实体属性,显然“李”是姓氏,具有命名实体属性。接着,判断“晓”能够作为人名用字,具有命名实体属性。接着,判断“军”能够作为人名用字,具有命名实体属性。最后,根据汉语人名不超过三个字,结束识别。从而,得到“李晓军”和“李晓”两个命名实体的候选。
接着,将上述两个候选集合并得到候选集合:
李 晓 军 研究生 命 科学
李晓军   研究 生命 科学
李晓军
最后,使用维特比搜索在候选集合中搜索到最佳结果:
李晓军 研究 生命科学
关于分词技术的具体细节,参考上述文献1至文献3,然而,应该理解,本发明并不限于上述实例和上述文献,可以使用本领域的技术人员公知的任何分词技术,只要能够对包括一个或多个命名实体的汉字串进行分词即可。此外,关于命名实体识别技术的具体细节,参考上述文献3至文献6,然而,应该理解,本发明并不限于上述实例和上述文献,可以使用本领域的技术人员公知的任何命名实体识别技术,只要能够识别汉字串中包括的一个或多个命名实体即可。
最后,在步骤S42,利用进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。
具体地,首先判断上述汉字串中包括的一个或多个命名实体是否包含多音字,如果该命名实体包含多音字,则根据上述命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音,否则,如果该命名实体不包含多音字,根据上述进行了裁减的词表,逐字为该命名实体注音。此外,根据上述进行了裁减的词表为上述汉字串中的其它词注音。
通过本实施例的为汉字串注音的方法,利用命名实体的属性与命名实体中多音字的读音之间的关系和进行了裁减的词表为命名实体中的多音字注音,从而在保证中文分词和多音字拼音标注系统性能的基础上,减少了系统的存储空间。
此外,本实施例的为汉字串注音的方法将命名实体识别技术应用于分词和多音字注音,命名实体识别技术不仅能识别出命名实体,而且能提供属性信息,该属性信息对命名实体中的多音字的注音非常有用。
裁减词表的装置
在同一发明构思下,图5是根据本发明的另一个实施例的裁减词表的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的裁减词表的装置500包括:关系获得单元501,利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及词表裁减单元505,根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,对包括多个命名实体及其读音的词表进行裁减。
具体地,关系获得单元501首先从进行了分词、词性标注和拼音标注的语料库中,利用命名实体识别技术获得所有的命名实体,其中,命名实体识别技术参考上述文献3至文献6,在此省略其说明。然而,应该理解,本发明并不限于上述文献,可以使用本领域的技术人员公知的任何命名实体识别技术,只要能够识别上述语料库中包括的多个命名实体即可。然后,从那些包含多音字的命名实体中得到命名实体的属性与命名实体中多音字的读音之间的关系。
具体地,命名实体的属性包括人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议,可参考http://acl.ldc.upenn.edu/muc7/
在本实施例中,命名实体的属性与命名实体中多音字的读音之间的关系为例如:
“单盈(shan ying)”中的“单”作为姓氏读音为“shan”,也就是在属性为“人名”的命名实体中,“单”的读音为“shan”,其它情况读音为“dan”;
“海龙大厦(hai long da sha)”中的“厦”作为地名读音为“sha”,而“厦门(xia men)”中的“厦”作为地名读音为“xia”,也就是在属性为“地名”的命名实体中,多音字“厦”具有多个读音“sha”和“xia”。
应该理解,这里示出的实例只是用于说明目的,本发明并不限于此。
在本实施例中,词表裁减单元505根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对词表进行裁减。具体地,上述词表包括多个命名实体和命名实体的读音以及大量的词和字及其读音。
下面参考图2详细描述词表裁减单元505对词表进行裁减的详细过程。
图2是根据本发明的实施例的裁减词表的详细过程的一个实例的示意图。在图2中,首先,在步骤S21,对初始词表201进行分割,例如,分割成:非命名实体词表202,其中不包含命名实体;不包含多音字的命名实体词表203,其中包含命名实体但是命名实体中不包含多音字;以及包含多音字的命名实体词表204,其中包含命名实体而且命名实体中包含多音字。
接着,在步骤S22,利用在上述步骤S11中获得的命名实体的属性与命名实体中多音字的读音之间的关系(此处标为205),对包含多音字的命名实体词表204进行分割,具体的分割过程在下文中参考图3进行详细描述,在此不再赘述。
在本实施例中,将包含多音字的命名实体词表204分割为能够正确注音的命名实体词表206和不能正确注音的命名实体词表207。同样,在下文中参考图3对能够正确注音的命名实体词表206和不能正确注音的命名实体词表207进行详细描述,在此不再赘述。
接着,在步骤S23,对由不包含多音字的命名实体词表203和能够正确注音的命名实体词表206构成的可删除的命名实体词表208进行删除。在一个可选实施例中,可以将可删除的命名实体词表208全部删除。在另一个可选实施例中,可以利用大规模语料库209,对可删除的命名实体词表208中词的出现次数进行统计,并将可删除的命名实体词表208中出现次数少的词优先删除。注意,这里使用的大规模语料库209可以是上述进行了分词、词性标注和拼音标注的语料库,也可以是本领域的技术人员公知的其它语料库。应该理解,本发明并不限于上述两个可选实施例,可以利用本领域的技术人员公知的任何装置根据实际需要对可删除的命名实体词表208中的部分或全部命名实体进行删除。
最后,将非命名实体词表202和可删除的命名实体词表208中的剩余部分合并作为裁减后的词表210。
下面参考图3详细描述上述步骤S22中对包含多音字的命名实体词表204进行分割的详细过程。
图3是根据本发明的实施例的分割包含多音字的命名实体词表的详细过程的一个实例的示意图。在图3中,首先,在步骤S31,利用在上述步骤S11中获得的命名实体的属性与命名实体中多音字的读音之间的关系205以及上述进行了分词、词性标注和拼音标注的语料库,获取在同一属性的命名实体中有多种读音的多音字集合P,例如在上述实例中,在属性为“地名”的命名实体中的多音字“厦”具有多种读音,从而“厦”为多音字集合P中的一个多音字。然而,在属性为“人名”的命名实体中的多音字“单”的读音只可能是“shan”,从而“单”不属于多音字集合P。
接着,在步骤S32,判断命名实体中是否具有多音字集合P中的多音字。
如果在步骤S32中判断命名实体中不具有多音字集合P中的多音字,例如,上述属性为“人名”并姓氏为“单”的命名实体中,没有多音字集合P中的多音字,则该命名实体是根据命名实体的属性和多音字读音之间的关系能够正确读音的命名实体,其属于能够正确注音的命名实体词表206。
否则,如果在步骤S32中判断命名实体中具有多音字集合P中的多音字,例如,在上述属性为“地名”并包括“厦”的命名实体中具有多音字集合P中的多音字“厦(xia或sha)”,则该命名实体是根据命名实体的属性和多音字读音之间的关系不能正确读音的命名实体,其属于不能正确注音的命名实体词表207。
本实施例的裁减词表的装置500及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现
通过本实施例的裁减词表的装置500,删除了词表中的非必须词条,即删除了非必须的不断扩展的命名实体词条,从而在保证中文分词和多音字拼音标注系统性能的基础上,减少了词表的存储空间。
为汉字串注音的装置
在同一发明构思下,图6是根据本发明的另一个实施例的为汉字串注音的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,本实施例的为汉字串注音的装置600包括:分词单元601,对包括一个或多个命名实体的汉字串进行分词并识别一个或多个命名实体及其属性;以及注音单元605,利用进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词的汉字串注音。其中,上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据上述裁减词表的装置500获得的,在此省略其说明。
具体地,分词单元601利用进行了裁减的词表,对汉字串进行分词,在该汉字串中包括在上述进行了裁减的词表中没有的一个或多个命名实体,并利用命名实体识别技术识别上述一个或多个命名实体及其属性。
下面以一个实例描述分词单元601进行分词和命名实体识别的过程。
首先,输入一个的汉字串:
李晓军研究生命科学
接着,利用上述进行了裁减的词表对输入的汉字串进行分词,得到候选的分词方式为:
李 晓 军 研究生 命 科学
         研究 生命 科学
接着,利用命名实体识别技术对输入的汉字串中的命名实体进行识别,得到候选的命名实体:
李晓军/PER(人名)
李晓/PER(人名)
具体地,首先判断“李”是否具有命名实体属性,显然“李”是姓氏,具有命名实体属性。接着,判断“晓”能够作为人名用字,具有命名实体属性。接着,判断“军”能够作为人名用字,具有命名实体属性。最后,根据汉语人名不超过三个字,结束识别。从而,得到“李晓军”和“李晓”两个命名实体的候选。
接着,将上述两个候选集合并得到候选集合:
李晓军 研究生 命 科学
李晓军 研究 生命 科学
李晓军
最后,使用维特比搜索在候选集合中搜索到最佳结果:
李晓军研究生命科学
关于分词技术的具体细节,参考上述文献1至文献3,然而,应该理解,本发明并不限于上述实例和上述文献,可以使用本领域的技术人员公知的任何分词技术,只要能够对包括一个或多个命名实体的汉字串进行分词即可。此外,关于命名实体识别技术的具体细节,参考上述文献3至文献6,然而,应该理解,本发明并不限于上述实例和上述文献,可以使用本领域的技术人员公知的任何命名实体识别技术,只要能够识别汉字串中包括的一个或多个命名实体即可。
在本实施例中,注音单元605利用进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。
具体地,注音单元605首先判断上述汉字串中包括的一个或多个命名实体是否包含多音字,如果该命名实体包含多音字,则根据上述命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音,否则,如果该命名实体不包含多音字,根据上述进行了裁减的词表,逐字为该命名实体注音。此外,根据上述进行了裁减的词表为上述汉字串中的其它词注音。
本实施例的为汉字串注音的装置600及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现
通过本实施例的为汉字串注音的装置600,利用命名实体的属性与命名实体中多音字的读音之间的关系和进行了裁减的词表为命名实体中的多音字注音,从而在保证中文分词和多音字拼音标注系统性能的基础上,减少了系统的存储空间。
此外,本实施例的为汉字串注音的装置600将命名实体识别技术应用于分词和多音字注音,命名实体识别技术不仅能识别出命名实体,而且能提供属性信息,该属性信息对命名实体中的多音字的注音非常有用。
以上虽然通过一些示例性的实施例详细地描述了本发明的裁减词表的方法,为汉字串注音的方法,裁减词表的装置,以及为汉字串注音的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (14)

1.一种裁减词表的方法,其中,上述词表包括多个命名实体及其读音;上述方法包括:
利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及
根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减;
其中,上述对上述词表进行裁减的步骤包括:删除不包含多音字的命名实体的至少一部分,和/或删除根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分。
2.根据权利要求1所述的裁减词表的方法,其中,上述删除根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分的步骤包括:
根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,利用上述语料库,统计获得在同一属性的命名实体中有多种读音的多音字集合;以及
如果在命名实体中不具有上述多音字集合中的多音字,则确定该命名实体为根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体。
3.根据权利要求1所述的裁减词表的方法,其中,删除不包含多音字的命名实体的至少一部分的步骤包括:利用语料库统计上述不包含多音字的命名实体出现的次数;以及将出现次数少的上述不包含多音字的命名实体从上述词表中删除。
4.根据权利要求1或2所述的裁减词表的方法,其中,删除根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分的步骤包括:利用语料库统计上述能够正确注音的包含多音字的命名实体出现的次数;以及将出现次数少的根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体从上述词表中删除。
5.根据权利要求1所述的裁减词表的方法,其中,上述命名实体的属性包括人名、地名、组织机构名称、商品名称、时间、金钱和数字。
6.一种为汉字串注音的方法,其中,上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体,上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据权利要求1-5中任何一项所述的裁减词表的方法获得的;上述方法包括:
对上述汉字串进行分词并识别上述至少一个命名实体及其属性;以及
利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。
7.根据权利要求6所述的为汉字串注音的方法,其中,为上述进行了分词和识别的汉字串注音的步骤包括:
为上述至少一个命名实体的每一个注音;以及
为上述汉字串中的其它词注音;
其中,为上述至少一个命名实体的每一个注音的步骤包括:
判断该命名实体是否包含多音字;
如果该命名实体包含多音字,则根据命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音,否则,根据上述进行了裁减的词表,逐字为该命名实体注音。
8.一种裁减词表的装置,其中,上述词表包括多个命名实体及其读音;上述装置包括:
关系获得单元,利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及
词表裁减单元,根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减;
其中,上述词表裁减单元用于删除不包含多音字的命名实体的至少一部分,和/或删除根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分。
9.根据权利要求8所述的裁减词表的装置,其中,上述词表裁减单元用于:
根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,利用上述语料库,统计获得在同一属性的命名实体中有多种读音的多音字集合;以及
如果在命名实体中不具有上述多音字集合中的多音字,则确定该命名实体为根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体。
10.根据权利要求8所述的裁减词表的装置,其中,上述词表裁减单元用于:利用语料库统计上述不包含多音字的命名实体出现的次数;以及将出现次数少的上述不包含多音字的命名实体从上述词表中删除。
11.根据权利要求8或9所述的裁减词表的装置,其中,上述词表裁减单元用于:利用语料库统计上述能够正确注音的包含多音字的命名实体出现的次数;以及将出现次数少的根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体从上述词表中删除。
12.根据权利要求8所述的裁减词表的装置,其中,上述命名实体的属性包括人名、地名、组织机构名称、商品名称、时间、金钱和数字。
13.一种为汉字串注音的装置,其中,上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体,上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系是根据权利要求8-12中任何一项所述的裁减词表的装置获得的;上述装置包括:
分词单元,对上述汉字串进行分词并识别上述至少一个命名实体及其属性;以及
注音单元,利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。
14.根据权利要求13所述的为汉字串注音的装置,其中,上述注音单元用于:
为上述至少一个命名实体的每一个注音;以及
为上述汉字串中的其它词注音;
其中,为上述至少一个命名实体的每一个注音的步骤包括:
判断该命名实体是否包含多音字;
如果该命名实体包含多音字,则根据命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音,否则,根据上述进行了裁减的词表,逐字为该命名实体注音。
CN2007100891190A 2007-03-19 2007-03-19 裁减词表和为汉字串注音的方法及装置 Expired - Fee Related CN101271449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100891190A CN101271449B (zh) 2007-03-19 2007-03-19 裁减词表和为汉字串注音的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100891190A CN101271449B (zh) 2007-03-19 2007-03-19 裁减词表和为汉字串注音的方法及装置

Publications (2)

Publication Number Publication Date
CN101271449A CN101271449A (zh) 2008-09-24
CN101271449B true CN101271449B (zh) 2010-09-22

Family

ID=40005428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100891190A Expired - Fee Related CN101271449B (zh) 2007-03-19 2007-03-19 裁减词表和为汉字串注音的方法及装置

Country Status (1)

Country Link
CN (1) CN101271449B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779141B (zh) * 2011-05-12 2017-03-01 阿尔派株式会社 设施数据检索装置以及导航系统
CN102982019B (zh) * 2012-11-26 2019-01-15 百度国际科技(深圳)有限公司 输入法语料注音方法、生成评测语料的方法及电子装置
JP5770753B2 (ja) * 2013-01-15 2015-08-26 グーグル・インコーポレーテッド Cjk名前検出
CN104133848B (zh) * 2014-07-01 2017-09-19 中央民族大学 藏语实体知识信息抽取方法
CN104599670B (zh) * 2015-01-30 2017-12-26 泰顺县福田园艺玩具厂 点读笔的语音识别方法
CN106407225A (zh) * 2015-08-03 2017-02-15 北大方正集团有限公司 一种显示拼音的方法及装置
CN107402933A (zh) * 2016-05-20 2017-11-28 富士通株式会社 实体多音字消歧方法和实体多音字消歧设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1421803A (zh) * 2001-11-30 2003-06-04 英业达股份有限公司 可处理多音字的拼音/注音转换系统及方法
US7171350B2 (en) * 2002-05-03 2007-01-30 Industrial Technology Research Institute Method for named-entity recognition and verification
CN1910573A (zh) * 2003-12-31 2007-02-07 新加坡科技研究局 用来识别并分类命名实体的系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1421803A (zh) * 2001-11-30 2003-06-04 英业达股份有限公司 可处理多音字的拼音/注音转换系统及方法
US7171350B2 (en) * 2002-05-03 2007-01-30 Industrial Technology Research Institute Method for named-entity recognition and verification
CN1910573A (zh) * 2003-12-31 2007-02-07 新加坡科技研究局 用来识别并分类命名实体的系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
俞鸿魁等.基于层叠隐马尔可夫模型的中文命名实体识别.通信学报27 2.2006,27(2),87-92.
俞鸿魁等.基于层叠隐马尔可夫模型的中文命名实体识别.通信学报27 2.2006,27(2),87-92. *

Also Published As

Publication number Publication date
CN101271449A (zh) 2008-09-24

Similar Documents

Publication Publication Date Title
Chen et al. Chinese named entity recognition with conditional random fields
CN101271449B (zh) 裁减词表和为汉字串注音的方法及装置
US8706472B2 (en) Method for disambiguating multiple readings in language conversion
US8892420B2 (en) Text segmentation with multiple granularity levels
US20180190270A1 (en) System and method for semantic analysis of speech
CN104572625A (zh) 命名实体的识别方法
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN105005557A (zh) 一种基于依存分析的中文兼类词处理方法
CN102200983A (zh) 属性提取装置和方法
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN102193920A (zh) 一种人名词库生成方法、装置及文字输入系统
CN106326206B (zh) 一种基于文法模板的实体抽取方法
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
CN111027312B (zh) 文本扩充方法、装置、电子设备及可读存储介质
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
CN112417875A (zh) 配置信息的更新方法、装置、计算机设备及介质
CN108776705B (zh) 一种文本全文精确查询的方法、装置、设备及可读介质
Yusof et al. Qur'anic words stemming
CN113052544A (zh) 工作流依用户行为智能适配方法、装置以及存储介质
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Aldarmaki et al. Robust part-of-speech tagging of Arabic text
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
CN104063500B (zh) 信息处理设备以及信息处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100922

Termination date: 20170319

CF01 Termination of patent right due to non-payment of annual fee