具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种人名候选词的生成方法,包括:
11、确定拼音串中包含符合人名特征的人名拼音串。
12、确定人名拼音串之前的已上屏词符合预定条件时,生成人名拼音串对应的人名候选词。
由上述本发明的实施例提供的技术方案可以看出,不仅确定拼音串中包含符合人名特征的人名拼音串,并确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,实现提高生成人名候选词的准确率,增强用户的体验。
人名特征可以包括中文人名特征或外文人名的中文译名特征,本发明对此不做限制。
中文人名特征可以包括姓氏和名字,对应的人名拼音串包括在前的姓氏拼音串和在后的名字拼音串;如中文人名“王萍”,人名拼音串“wangping”。
外文人名的中文译名特征可以包括音译的名字,对应的人名拼音串包括名字拼音串。如英文人名“TOM”,中文译名“汤姆”,人名拼音串“tangmu”。
以下具体分析本发明实施例中的中文人名:
(一)中文人名形式
对于大部分中文人名,一般由姓氏和名字组成,其中常见的中文人名一般包括如下形式:
单姓+一个字,如“项羽”;
单姓+第一个字+第二个字,如“李世民”;
复姓+一个字,如“诸葛亮”;
复姓+第一个字+第二个字,如“司马相如”。
(二)中文姓氏数量
对于中文人名,虽然由许多生僻怪异的姓氏,但绝大部分姓氏还是常见的百家姓中的一个,根据历次人口普查可以很清晰知道姓氏的数量是有限的,而且相对比较集中的。
(三)中文名字数量
对于中文人名,一般会选择比较美好事物对应名称或描述性文字、或有纪念意义事情对应的文字,例如“亮”、“梅”、“明”、“景”;“建国”、“建军”、“卫国”、“国庆”等,这些人为因素决定了名字所使用的汉字数量时有限且趋向于集中的。
由上述分析可见,中文人名特征可以包括姓氏和名字,姓氏包括单姓或复姓,名字包括单字或多字,等等。对应的,人名拼音串可以包括在前的姓氏拼音串和在后的名字拼音串,等等。
基于上述说明,本发明实施例人名候选词的生成方法,在步骤11之前,还可以包括:构建符合中文人名特征的姓氏和名字的词库。
此时,上述步骤11,可以理解为,根据输入的拼音串,从预先构建的词库中判断拼音串中是否包含符合中文人名特征的人名拼音串。
而且,中文人名除了通常由姓氏和名字构成之外,中文人名通常在句子结构也具有一定的特殊性,如人名常常出现在句首或者动词之后,则上述步骤12中,确定人名拼音串之前的已上屏词符合预定条件,可以包括:
确定人名拼音串中的姓氏拼音串之前的已上屏词为标点符号。标点符号包括代表句子结束的标点符号,那么,人名拼音串中的姓氏拼音串之前的已上屏词为已经是句尾了,则人名拼音串中的姓氏拼音串代表另一句的句首。例如,代表句子结束的标点符号可以包括:句号、逗号、问号、惊叹号、省略号,等等。代表句子未结束的标点符号可以包括:冒号,引号,等等。在此不作详细说明。
或者,确定人名拼音串中的姓氏拼音串之前的已上屏词为动词。例如,可以通过标识词语的词性来判断已上屏词的词性是否为动词,如“她叫王萍”中,输入“wangping”人名拼音串,“wangping”之前的已上屏词“叫”是动词,则生成人名拼音串对应的人名候选词,如“王萍”,在此不作详细说明。
或者,确定人名拼音串中的名字拼音串之前的已上屏词为姓氏。例如,通过标识词语的属性来判断已上屏词的属性是否为姓氏,如将“赵、钱、孙、李……”等的属性标识为姓氏,在此不作详细说明。
上述3种确定人名拼音串之前的已上屏词符合预定条件的方式,可以并存也可以独立适用,当3者并存时,没有先后顺序的限制。较佳的,可以先确定人名拼音串中的姓氏拼音串之前的已上屏词为代表句子结束的标点符号,当确定人名拼音串中的姓氏拼音串之前的已上屏词不是句尾后,再确定人名拼音串中的姓氏拼音串之前的已上屏词为动词,最后,确定人名拼音串中的名字拼音串之前的已上屏词为姓氏。
另外,上述步骤12中,仍然可以结合人名拼音串对应的词语的词频优化上下文联想,如将词频较高的人名拼音串对应的词语作为第一个候选词,以此类推。例如,对于人名拼音串“wangping”对应的词语的词频,候选词依次可以为“王萍”,“王平”,“王苹”,在此不作详细说明。
以下具体分析本发明实施例中的外文人名的中文译名:
外文人名的中文译名通常是音译过来的名字,如英文人名“TOM”,中文译名“汤姆”,人名拼音串“tangmu”。而且,一些常用外文人名的中文译名,已经较普遍的被人们接受,基于上述因素决定了常用外文人名的中文译名所使用的汉字数量时有限且趋向于集中的。
基于上述说明,本发明实施例人名候选词的生成方法,还可以包括:构建符合外文人名的中文译名特征的名字的词库。
此时,上述步骤11,可以理解为,根据输入的拼音串,从预先构建的词库中判断拼音串中是否包含符合外文人名的中文译名特征的人名拼音串。
同理,外文人名的中文译名通常在句子结构中也具有一定的特殊性,如人名常常出现在句首或者动词之后,则上述步骤12中,确定人名拼音串之前的已上屏词符合预定条件,可以包括:
确定人名拼音串中的名字拼音串之前的已上屏词为标点符号。
确定人名拼音串中的名字拼音串之前的已上屏词为动词。
同理,上述2种确定人名拼音串之前的已上屏词符合预定条件的方式,可以并存也可以独立适用,当2者并存时,没有先后顺序的限制。
同理,上述步骤12中,仍然可以结合人名拼音串对应的词语的词频优来化上下文联想,如将词频较高的人名拼音串对应的词语作为第一个候选词,以此类推。
通过对上述步骤11、12的描述可以看出,不仅要确定拼音串中包含符合人名特征的人名拼音串,而且要确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,可以提高生成人名候选词的准确率,增强用户的体验。
而且,当虽然确定拼音串中包含符合人名特征的人名拼音串,但是确定人名拼音串之前的已上屏词不符合预定条件,那么不会生成人名拼音串对应的人名候选词,避免生成用户不需要的人名候选词,影像用户的输入。
如图2所示,具体以一实例说明本发明实施例人名候选词的生成方法。
21、用户输入拼音串,如“nining”。
22、确定拼音串中是否包含符合中文人名特征的人名拼音串。如果是,进入步骤23,如果否,进入步骤25。
如,“nining”符合中文人名特征,进入步骤23。
23、确定人名拼音串之前的已上屏词符合预定条件。如果是,进入步骤24,如果否,进入步骤25。
如,用户输入“nining”之前,用户已经输入并上屏“她叫”,确定“nining”之前“叫”为动词,且“nining”符合中文人名特征,即符合预定条件,进入步骤24。
或者,如,用户输入“nining”之前,用户输入并上屏“这条路很”,确定“nining”之前上屏的词语不符合预定条件,所以虽然“nining”符合中文人名特征,但是要进入步骤25。
24、生成人名拼音串对应的人名候选词。
如,将“nining”对应生成“倪宁”等之类的人名候选词。
25、通过上下文联想生成非人名候选词。
如,虽然“nining”符合人名特征,也不会生成人名候选词,而是通过上下文联想生生成普通词语“泥泞”。
如图3所示,对应于上述实施例的一种人名候选词的生成方法,本发明实施例提供一种人名候选词的生成装置,包括:
确定单元31,用于确定拼音串中包含符合人名特征的人名拼音串。
生成单元32,用于确定人名拼音串之前的已上屏词符合预定条件时,生成人名拼音串对应的人名候选词。
由上述本发明的实施例提供的技术方案可以看出,不仅确定拼音串中包含符合人名特征的人名拼音串,并确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,实现提高生成人名候选词的准确率,增强用户的体验。
可以理解,人名特征可以包括中文人名特征或外文人名的中文译名特征。
中文人名特征可以包括姓氏和名字,人名拼音串包括在前的姓氏拼音串和在后的名字拼音串
外文人名的中文译名特征可以包括音译的名字,人名拼音串包括名字拼音串。
可见,本发明实施例人名候选词的生成装置,还可以包括:
构建单元,用于构建符合人名特征的姓氏和名字的词库。
如图4所示,具体而言,人名拼音串包括在前的姓氏拼音串和在后的名字拼音串时,生成单元,可以包括:
第一生成子单元41,用于确定人名拼音串中的姓氏拼音串之前的已上屏词为标点符号,生成人名拼音串对应的人名候选词。
第二生成子单元42,用于确定人名拼音串中的姓氏拼音串之前的已上屏词为动词,生成人名拼音串对应的人名候选词。
第三生成子单元43,用于确定人名拼音串中的名字拼音串之前的已上屏词为姓氏,生成人名拼音串对应的人名候选词。
或者,人名拼音串包括名字拼音串时,生成单元,可以包括:
第一生成子单元41,用于确定人名拼音串中的名字拼音串之前的已上屏词为代表句子结束的标点符号。
第二生成子单元42,用于确定人名拼音串中的名字拼音串之前的已上屏词为动词。
第一生成子单元41中,标点符号包括代表句子结束的标点符号。那么,人名拼音串中的姓氏拼音串之前的已上屏词已经是句尾了,则人名拼音串中的姓氏拼音串代表另一句的句首。
通过上述描述可以看出,不仅要确定拼音串中包含符合人名特征的人名拼音串,而且要确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,可以提高生成人名候选词的准确率,增强用户的体验。
而且,当虽然确定拼音串中包含符合人名特征的人名拼音串,但是确定人名拼音串之前的已上屏词不符合预定条件,那么不会生成人名拼音串对应的人名候选词,避免生成用户不需要的人名候选词,影像用户的输入。
上述本发明实施例人名候选词的生成装置及其构成部分的作用,可以通过上述实施例人名候选词的生成方法得以理解,在此不在展开叙述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。