CN102270048A - 一种名词输入的方法及系统 - Google Patents

一种名词输入的方法及系统 Download PDF

Info

Publication number
CN102270048A
CN102270048A CN2010101978174A CN201010197817A CN102270048A CN 102270048 A CN102270048 A CN 102270048A CN 2010101978174 A CN2010101978174 A CN 2010101978174A CN 201010197817 A CN201010197817 A CN 201010197817A CN 102270048 A CN102270048 A CN 102270048A
Authority
CN
China
Prior art keywords
noun
name
entry
split
deriving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101978174A
Other languages
English (en)
Other versions
CN102270048B (zh
Inventor
杨磊
查文
王天一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201010197817.4A priority Critical patent/CN102270048B/zh
Publication of CN102270048A publication Critical patent/CN102270048A/zh
Application granted granted Critical
Publication of CN102270048B publication Critical patent/CN102270048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种名词输入的方法及系统,能够进一步提高用户输入名词的效率。所述方法包括:通过预定方式获取名词;对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;利用所述衍生词条对输入法的输出候选项进行调整。本发明可以对已有的各种名词,如人名、地名、公司名、产品名、物品名等进行拆分和扩展,得到各种相关形式的衍生词条,并利用这些衍生词条对输入法输出候选项的内容和顺序进行调整,以提高用户选词的命中率,从而提高输入效率。

Description

一种名词输入的方法及系统
技术领域
本发明涉及输入法技术领域,特别是涉及一种名词输入的方法及系统。
背景技术
在输入法领域,进行中文输入的过程中,词库在很大程度上影响着从拼音向汉字(词)转换的准确率,从而进一步影响用户的输入效率。但是,对于人名、地名、公司名、物品名等各种名词的输入,由于不同用户所使用词条的差异性,以及各种名词变形形式的复杂性,导致与各种名词相关的词条很难通过词库来解决。
以人名输入为例,对于同一个名字,实际使用中会有各种不同形式的称谓。例如,对于名字“李江涛”,通常在正式的场合中才会使用“李江涛”全名,在各种其他场合,可能用到“江涛”、“涛哥”、“李哥”、“小李”、“老李”、“阿涛”等等称谓,还有可能出现“李总”、“李工”、“李经理”、“李老师”、“李同志”、“李同学”等形式的称谓。由于人名极具个性化,而且不同用户可能用到的人名以及称谓各不相同,因此在中文输入法中需要解决人名(或称谓)输入的问题。
目前常用的解决方法有两种:
一种是使用用户词库,目前大多数输入法都具有造词和调频的能力,即能够记录用户首次使用的新词,并根据用户的历史使用情况对词条的词频进行调整。特别的,对于人名及称谓,在首次使用时会被记录下来并进入用户词库,使得用户的后续使用能够非常方便。
另一种是导入人名库,即通过各种途径获得用户所能用到的人名库,并导入到输入法中,以便用户输入时直接从库中获取。其中,人名库的获取途径可以是直接的人工编辑,也可以定期通过网络更新,还可以通过其他来源获取。
但是,上述两种解决方法各自都存在缺陷,从而限制了用户输入效率的进一步提高。其中,用户词库虽然能够很好地解决第二次以及后续输入的问题,但是,首次输入仍然通过手工造词实现(所述首次输入主要指各种不同称谓的词的首次输入)。而导入人名库虽然能够解决人名相关的首次输入问题,但是,由于称谓的使用与用户的用词习惯、用词环境密切相关,不同用户使用的称谓也各不相同,因此难以通过导入人名库的方式对所有用户使用的称谓进行穷举。
同样,对于地名、公司名、物品名等各种名词的输入,也存在着与人名输入类似的问题。
发明内容
本发明所要解决的技术问题是提供一种名词输入的方法及系统,能够进一步提高用户输入名词的效率。
为了解决上述问题,本发明公开了一种名词输入的方法,包括:
通过预定方式获取名词;
对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
利用所述衍生词条对输入法的输出候选项进行调整。
其中,所述名词为人名,则所述预定规则为人名规则。
其中,所述名词为地名,则所述预定规则为地名规则。
其中,所述名词为可缩写或简称的名词,则所述预定规则为缩写或简称规则。
其中,对所述人名按照人名规则进行拆分包括:按照“姓表”对人名进行姓和名的拆分,所述“姓表”中包括单姓和复姓。
其中,对所述人名按照人名规则进行拆分包括:根据人名中各汉字的位置以及汉字本身构成人名的可能性来判断人名中的汉字是姓还是名,进行姓和名的拆分。
其中,对所述人名按照人名规则进行变形扩展包括:对人名拆分后的姓和/或名分别加上附加部分,所述附加部分是通过分析用户对特定称谓的偏好,将所述特定称谓作为附加部分;其中,通过以下方式分析用户对特定称谓的偏好:通过分析用户的词条使用情况;和/或,根据用户的注册信息;和/或,根据定位信息或网络地址信息;和/或,根据通讯录中记录的与姓名相关的附属信息,所述附属信息包括职位、性别或年龄信息。
其中,对所述地名按照地名规则进行拆分包括:根据标识地名信息的特定词库,从所述地名中查找包含在该特定词库中的词条,并依据该词条对地名进行拆分。
其中,对所述地名按照地名规则进行变形扩展包括:对地名拆分后的部分词条加上附加部分;和/或,直接对所述地名加上附加部分。
其中,对所述可缩写或简称的名词按照缩写或简称规则进行拆分包括:所述可缩写或简称的名词为公司名,则根据标识公司信息的特定词库,从所述公司名中查找包含在该特定词库中的词条,并依据该词条对公司名进行拆分;所述可缩写或简称的名词为产品名,则根据标识产品信息的特定词库,从所述产品名中查找包含在该特定词库中的词条,并依据该词条对产品名进行拆分;所述可缩写或简称的名词为物品名,则根据标识物品信息的特定词库,从所述物品名中查找包含在该特定词库中的词条,并依据该词条对物品名进行拆分。
其中,对所述可缩写或简称的名词按照缩写或简称规则进行变形扩展包括:所述可缩写或简称的名词为公司名,则提取公司名拆分后的部分词条进行扩展;所述可缩写或简称的名词为产品名,则提取产品名拆分后的部分词条进行扩展;所述可缩写或简称的名词为物品名,则提取物品名拆分后的部分词条进行扩展。
其中,对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条包括:对所述名词按照预定规则进行拆分,拆分后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行变形扩展,扩展后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行拆分,并利用拆分后得到的词条进行变形扩展,将拆分后得到的词条和/或变形扩展后得到的词条作为基于该名词的衍生词条。
其中,利用所述衍生词条对输入法的输出候选项进行调整包括:如果词库中不存在所述衍生词条,则将所述衍生词条直接加入词库,并在输入对应字符串时加入输出候选项;如果词库中存在所述衍生词条,则在输入对应字符串时调整在输出候选项的位置优先显示。
其中,所述通过预定方式获取名词包括:输入法系统获取人工编辑的名词;和/或,定期从网络下载名词;和/或,获取共享的名词;和/或,从通讯录导入名词;和/或,获取首次输入的名词;和/或,获取规定时间内符合规定输入次数的名词;和/或,通过词句拆分提取词句中包含的名词。
其中,所述通过预定方式获取名词之前,还包括:接收用户输入的字符串;则所述通过预定方式获取名词为:在获取名词的来源中查找与该字符串相关的名词;则所述对名词进行拆分和/或变形扩展是指对查找到的名词进行拆分和/或变形扩展。
其中,利用所述衍生词条对输入法的输出候选项进行调整包括:直接将所述名词的衍生词条加入对应所述字符串的输出候选项中;或者,调整该衍生词条在输出候选项的位置优先显示。
本发明还提供了一种名词输入的系统,包括:
名词获取单元,用于通过预定方式获取名词;
名词拆分扩展单元,用于对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
候选项调整单元,用于利用所述衍生词条对输入法的输出候选项进行调整。
其中,所述名词为人名,则所述预定规则为人名规则。
其中,所述名词为地名,则所述预定规则为地名规则。
其中,所述名词为可缩写或简称的名词,则所述预定规则为缩写或简称规则。
其中,所述名词拆分扩展单元包括:人名第一拆分子单元,用于按照“姓表”对人名进行姓和名的拆分,所述“姓表”中包括单姓和复姓。
其中,所述名词拆分扩展单元包括:人名第二拆分子单元,用于根据人名中各汉字的位置以及汉字本身构成人名的可能性来判断人名中的汉字是姓还是名,进行姓和名的拆分。
其中,所述名词拆分扩展单元还包括:人名扩展子单元,用于对人名拆分后的姓和/或名分别加上附加部分,所述附加部分是通过分析用户对特定称谓的偏好,将所述特定称谓作为附加部分;其中,通过以下方式分析用户对特定称谓的偏好:通过分析用户的词条使用情况;和/或,根据用户的注册信息;和/或,根据定位信息或网络地址信息;和/或,根据通讯录中记录的与姓名相关的附属信息,所述附属信息包括职位、性别或年龄信息。
其中,所述名词拆分扩展单元包括:地名拆分子单元,用于根据标识地名信息的特定词库,从所述地名中查找包含在该特定词库中的词条,并依据该词条对地名进行拆分。
其中,所述名词拆分扩展单元还包括:地名扩展子单元,用于对地名拆分后的部分词条加上附加部分;和/或,直接对所述地名加上附加部分。
其中,所述名词拆分扩展单元包括:公司名拆分子单元,用于当所述可缩写或简称的名词为公司名时,根据标识公司信息的特定词库,从所述公司名中查找包含在该特定词库中的词条,并依据该词条对公司名进行拆分;产品名拆分子单元,用于当所述可缩写或简称的名词为产品名时,根据标识产品信息的特定词库,从所述产品名中查找包含在该特定词库中的词条,并依据该词条对产品名进行拆分;物品名拆分子单元,用于当所述可缩写或简称的名词为物品名时,根据标识物品信息的特定词库,从所述物品名中查找包含在该特定词库中的词条,并依据该词条对物品名进行拆分。
其中,所述名词拆分扩展单元还包括:公司名扩展子单元,用于当所述可缩写或简称的名词为公司名时,提取公司名拆分后的部分词条进行扩展;
产品名扩展子单元,用于当所述可缩写或简称的名词为产品名时,提取产品名拆分后的部分词条进行扩展;物品名扩展子单元,用于当所述可缩写或简称的名词为物品名时,提取物品名拆分后的部分词条进行扩展。
其中,所述名词拆分扩展单元是对所述名词按照预定规则进行拆分,拆分后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行变形扩展,扩展后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行拆分,并利用拆分后得到的词条进行变形扩展,将拆分后得到的词条和/或变形扩展后得到的词条作为基于该名词的衍生词条。
其中,如果词库中不存在所述衍生词条,则所述候选项调整单元将所述衍生词条直接加入词库,并在输入对应字符串时加入输出候选项;如果词库中存在所述衍生词条,则所述候选项调整单元在输入对应字符串时调整在输出候选项的位置优先显示。
其中,所述预定方式包括:人工编辑名词;和/或,定期从网络下载名词;和/或,获取共享的名词;和/或,从通讯录导入名词;和/或,获取首次输入的名词;和/或,获取规定时间内符合规定输入次数的名词;和/或,通过词句拆分提取词句中包含的名词。
其中,所述系统还包括:输入单元,用于接收用户输入的字符串;则所述名词获取单元通过预定方式获取名词为:在获取名词的来源中查找与该字符串相关的名词;则所述名词拆分扩展单元对名词进行拆分和/或变形扩展是指对查找到的名词进行拆分和/或变形扩展。
其中,所述候选项调整单元直接将所述名词的衍生词条加入对应所述字符串的输出候选项中;或者,调整该衍生词条在输出候选项的位置优先显示。
与现有技术相比,本发明具有以下优点:
首先,本发明提供了一种新颖的名词输入方法,该方法能够对已有的各种名词,如人名、地名、公司名、产品名、物品名等进行拆分和/或变形扩展,生成基于该名词的各种不同形式的衍生词条,这样就可以利用名词的衍生词条,对输入法的输出候选项进行调整,以提高用户选词的命中率,从而提高了输入效率,同时还解决了现有技术提出的两个问题:第一,针对使用用户词库的方法,本发明由于对已有的名词进行了扩展,扩展出很多其他形式的衍生名词,因此能够解决大部分的首次输入问题(所述首次输入同样主要指各种不同形式的衍生名词的首次输入);第二,针对导入名词库(如人名库)的方法,本发明相当于对名词库进行了改进,基于名词库扩展出更多形式的名词,而且,对已有的名词进行扩展时,还可以根据用户的用词习惯、用词环境扩展出适合不同用户的其他名词形式,满足不同用户的输入需求,解决了现有导入名词库(如人名库)的方法不能对所有用户的需求进行穷举的问题。
其次,本发明还减少了词库下载或更新过程中的网络数据传输量。现有技术中,无论是使用用户词库还是导入名词库(如人名库)的方法,为了尽可能地满足用户的输入需求,会尽量增加词库的词汇量,这样用户从网络上下载和更新本地词库时就需要传输较大的数据量。而本发明由于可以在用户本地基于词库中的名词生成更多的衍生名词,因此通过网络传输的词库数据量相对较少,从而提高了传输效率。
再次,本发明可以应用到多种场景中。例如,可以对定期从网络下载的人名,或者从通讯录导入的人名,进行拆分扩展,然后加入词库或调整词库中相应词条的词频,从而影响后续输入中这些词条在候选项列表的排列。或者,可以对用户输入的各种名词进行拆分扩展,并加入词库或调整词库中相应词条的词频,如用户输入“李江涛”,可以立刻对“李江涛”进行拆分,并将拆分出来的“江涛”加入词库或调整词库中原有的“江涛”一词的词频。再例如,为了节省词库的存储空间,还可以不对词库进行改动,而是在用户输入拼音串的过程中,直接在词库中查找包含该拼音串对应词条的名词,并进行拆分扩展,然后直接将衍生词条加入候选项列表或调整词频。如输入拼音“jiangtao”时,词库中只存在“李江涛”一词,则可以从词库中找到“李江涛”并拆分提取出“江涛”一词加入候选项,或者将“江涛”在候选项列表的位置调整靠前,满足并加快用户的输入。
附图说明
图1是本发明实施例一所述一种名词输入的方法流程图;
图2是本发明实施例三中在场景一的名词输入方法流程图;
图3是本发明实施例三中在场景二的名词输入方法流程图;
图4是本发明实施例四所述一种名词输入的系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
针对中文输入过程中各种不同形式的名词的输入,本发明提供了一种方法,能够基于已有的名词扩展出其他相关形式的名词,从而提高用户的输入效率。其中,所述名词包括人名、地名、公司名、产品名、物品名等各种类型的名词。
下面通过实施例进行详细说明。
实施例一:
参照图1,是本发明实施例一所述一种名词输入的方法流程图。
步骤101,通过预定方式获取名词;
本实施例中,获取名词的途径有很多种,例如:可以提供词库的编辑接口,供人工编辑名词添加到词库中;或者,用户定期从网络下载包含名词的词库;或者,通过用户输入来获取,等等。即本实施例可以应用到多种场景下,通过各种方式获取到名词。
步骤102,对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
其中,所述名词的类型不同,对应的预定规则也不同。如果所述名词为人名,则所述预定规则为人名规则;如果所述名词为地名,则所述预定规则为地名规则;如果所述名词为可缩写或简称的名词,如公司名、产品名或物品名等,则所述预定规则为缩写或简称规则。关于人名规则、地名规则和缩写或简称规则,将在实施例二中进行详细说明。
基于所获取的名词生成衍生词条(也可称为衍生名词)的方式主要包括以下三种:
第一种是对所述名词按照预定规则进行拆分,拆分后得到的词条作为基于该名词的衍生词条;例如,将公司名“浙江万马有限公司”拆分为“浙江”、“万马”、“有限公司”,并将“万马”一词作为衍生名词;
第二种是对所述名词按照预定规则进行变形扩展,扩展后得到的词条作为基于该名词的衍生词条;例如,将地名“五道口”直接扩展为衍生名词“五道口站”;
第三种是对所述名词按照预定规则进行拆分,并利用拆分后得到的词条进行变形扩展,将拆分后得到的词条和/或变形扩展后得到的词条作为基于该名词的衍生词条。例如,将人名“李江涛”拆分为“李”和“江涛”,然后基于“李”扩展出“李工”、“老李”等称谓,并基于“江涛”扩展出“涛哥”、“阿涛”等称谓,可以将拆分结果“江涛”以及扩展出的这些称谓作为“李江涛”的衍生名词。
上述三种方式中,在对名词进行拆分时,通常是按照名词的构成方式进行拆分。例如,人名由姓和名构成,则拆分出姓和名,如人名“王小惠”可以拆分为词条“王”和词条“小惠”;公司名通常由所属行政区域和具体公司名称构成,如“中国石化”可以拆分为词条“中国”和“石化”。
由于一个名词通常会有多种形式的叫法,如人名会有多种称谓,地名会有简称,公司名也会有多种简称,所以需要对已有的名词进行扩展。扩展的基本思路是:利用已有的名词或名词拆分后得到的词条进行扩展。例如,对人名拆分出的词条“王”,加上各种称谓可扩展出“王老师”、“王总”、“王姐”等不同形式的称呼;对公司名拆分出的词条“中国”和“石化”,可以提取“中”字与“石化”组合出公司的简称“中石化”。
由于人名、地名、公司名等各种名词的扩展方法各不相同,因此针对不同名称的具体扩展方法将在实施例二中进行详细说明。
步骤103,利用所述衍生词条对输入法的输出候选项进行调整。
所述调整是指调整输出候选项的内容和顺序(即候选项的位置),以下是举例说明的两种调整方式,如下:
其一,如果输入法词库中不存在所述衍生词条,则将所述衍生词条直接加入词库,并在输入对应字符串(如拼音)时加入输出候选项。例如,假设输入法词库中没有“小惠”、“王老师”、“王总”、“王姐”这几种称谓,则可以将这些词条加入词库作为对人名“王小慧”的称谓扩充,当用户输入拼音“xiaohui”时,就可以从词库中找出“小慧”一词添加到候选项列表中,供用户输入选择。
其二,如果输入法词库中存在所述衍生词条,则修改所述衍生词条的词频,并在输入对应字符串(如拼音)时调整在输出候选项的位置。例如,假设输入法词库中存在人名称谓“小惠”、“王老师”、“王总”、“王姐”,则可以对这些词条的词频进行调整,如调高词频,则当用户输入拼音“xiaohui”时,可以将“小慧”一词排在候选项列表中靠前的位置,供用户优先选择。
当然,在实际应用中,还存在其它的调整方式,具体参照实施例三所述。
通过以上步骤的处理可知,上述名词输入的方法可以对已有的各种名词进行拆分和扩展,得到各种相关形式的衍生词条,并利用这些衍生词条对输入法输出候选项的内容和顺序进行调整,以提高用户选词的命中率,从而提高输入效率。
同时,所述方法还解决了现有技术存在的两个问题:
第一,与现有技术使用用户词库的输入方法相比,本实施例由于对词库中已有的名词进行了扩展,扩展出很多其他形式的衍生词条,因此能够解决大部分的首次输入问题。其中,所述首次输入主要指扩展出的各种不同形式的衍生名词的首次输入。例如对于人名的输入,首次输入主要是指对应该人名的不同称谓的首次输入,这是因为人名极具个性化,无法进行穷举,因此对某个人名的首次输入问题无法绝对避免,但本实施例可以最大程度地避免人名称谓的首次输入问题。
第二,与现有技术通过各种途径导入名词库(如人名库)的输入方法相比,本实施例相当于对名词库进行了改进,基于名词库扩展出更多形式的名词,而且,对名词库中已有的名词进行扩展时,还可以根据用户的用词习惯、用词环境扩展出适合不同用户的名词,满足不同用户的输入需求,解决了现有导入名词库(如人名库)的方法不能对所有用户的需求进行穷举的问题。
此外,所述方法还减少了词库下载或更新过程中的网络数据传输量。现有技术中,无论是使用用户词库还是导入名词库(如人名库)的方法,为了尽可能地满足用户的输入需求,会尽量增加词库的词汇量,这样用户从网络上下载或更新本地词库时就需要传输较大的数据量。而本发明由于可以在用户本地基于词库中的名词生成更多的衍生名词,因此通过网络传输的词库数据量相对较少,从而提高了传输效率。
实施例二:
基于上述实施例一,本实施例将分别以人名、地名、公司名、产品名和物品名为例,具体说明如何对各种名词进行拆分和扩展。
例1,人名:
如前所述,人名是按照人名规则进行拆分,具体的人名规则如下:
对于人名的拆分,中文人名常由“姓”“名”两部分构成,在称谓中常单独使用“姓”或者“名”。因此,首先要进行姓名切分,将人名分割为“姓”和“名”两部分。具体的拆分方法如下:
方法一:
由于中文中的“姓”相对确定,而且中文的“姓”通常在前,“名”在后,因此可借助一个“姓表”完成姓名切分:即从人名中查找包含在“姓表”中的前缀部分来确定“姓”,余下部分为“名”。
所述“姓表”涵盖了中国几乎所有的姓氏,包括较多使用的单姓和较少使用的复姓。其中,对于复姓的处理需要特别注意,本实施例的处理方式是:
由于复姓通常为两个字,因此由复姓构成的人名至少为三个字,所以本实施例对三个字或者三个字以上的人名进行拆分时,首先需要对照“姓表”判断人名中是否包含复姓,如果是复姓,则将人名中包含的在“姓表”出现的复姓与人名的其余部分切分开来;如果是单姓,则将人名的第一个字作为姓,其余部分作为名。
例如,“李江涛”为一个单姓人名,则对照“姓表”可以将姓“李”和名“江涛”拆分出来。而“欧阳夏丹”为一个复姓人名,则对照“姓表”,拆分出复姓“欧阳”和名“夏丹”。
方法二:
由于中文单姓较多,复姓较少,因此在不精确的情况下,可以直接提取人名的第一个汉字作为“姓”,余下部分作为“名”。这个方法也可以用来作为“姓表”方法的补充,即当人名的任何前缀都不存在于姓表中时,采取这种方法进行拆分。
进一步考虑,“名”通常不超过两个汉字,因此对于四字人名,通常取前两个汉字作为“姓”(复姓),后两个汉字作为“名”。
方法三:
除了上述常见的中文人名构成方式之外,还有一些人名是由外文或少数名族语言音译而来,这种人名的前缀往往并不对应“姓”,“姓”反而在人名的后缀。例如英语中的人名,姓在后名在前,如约翰·维尔逊;此外,维吾尔族的人名也是姓在后名在前,如库尔班·热合曼。
对于这种特殊的人名构成,可以根据人名中各汉字的位置以及汉字本身构成名字的可能性来判断该汉字是姓还是名,从而完成姓名切分。例如,对于包含符号“·”的人名,将“·”之前的部分作为“名”,将“·”之后的部分作为“姓”。当然,这种方法也可以对姓在前名在后的人名进行拆分。
以上三种方法可以根据实际应用情况单独选择或组合使用,而且本实施例所述的人名拆分方法不限于上述三种。
此外,对于个别的特殊人名,如三字复姓人名“诸葛亮”,四字单姓人名“陶伊美儿”,还有姓与名重复的人名“杨杨”,女性名前冠以夫姓的人名“钟黄雅丽”等,也可以通过上述列举的方法拆分出姓和名。例如,“诸葛亮”可以按照方法一,对照“姓表”将复姓“诸葛”拆分出来;“陶伊美儿”可以根据方法一将“陶”姓拆分出来;“杨杨”虽然姓与名重复,但不影响姓与名的拆分,使用方法一或方法二都可以完成拆分;“钟黄雅丽”也可以根据方法一完成拆分。由此可见,一种优选的人名拆分方法是:使用方法一能够解决大部分的姓名拆分,而方法二和方法三可以作为方法一的补充。
完成“姓”和“名”的拆分后,由于中文常使用“名”的部分作为称谓(通常是昵称,尤其对于“名”包含一个字以上的情况),因此,可以直接将“名”作为称谓(即衍生词条)加入词库或调整其词频,例如直接将“江涛”一词加入词库。同样,也可以直接将“姓”作为称谓加入词库或调整其词频,尤其是对于复姓,调整复姓的词频更有实际意义。
此外,还可以基于上述的拆分结果继续进行变形扩展,扩展出更多形式的衍生词条,具体为:对人名拆分后的姓和/或名分别加上附加部分,就生成了不同形式的称谓,如对“李”和“江涛”分别进行扩展,可得到“涛哥”、“李哥”、“小李”、“老李”、“阿涛”、“李总”、“李工”、“李经理”、“李老师”、“李同志”、“李同学”等。其中,所述附加部分可以通过分析用户对特定称谓的偏好,将所述特定称谓作为附加部分。分析用户对特定称谓的偏好的方式包括:
1)可以通过分析用户过去的词条使用情况来获得这种偏好。例如,用户“李江涛”过去大量用到“李同学”这样的称谓,则可将“李同学”加入词库或调整其词频。
2)还可以根据其他信息获得偏好,例如根据用户的注册信息识别其为学生,则可将“李同学”加入词库或调整其词频;或者,根据定位信息或网络地址信息识别用户,从而获取该用户对特定称谓的偏好。例如,根据GPS定位信息或者IP地址等信息判断其在校园内使用(不一定是学生),则可将“李同学”或“李老师”加入词库或调整其词频。再例如,根据手机基站或者手机中安装的GPS进行定位,判断用户经常在某研究院内使用,则可以将“李工”加入词库或调整其词频。当然,也可以允许用户手工选择这种偏好。
3)如果可以获得一些与姓名相关的附属信息,也可以据此选择偏好称谓。例如,词条来源为通讯录的情况,通讯录中常常记录了一些附加信息,如职位、性别或年龄等,如果通讯录中记录其职位为“老师”,则可将“李老师”加入词库或调整其词频;如果通讯录中记录其职位为“工程师”,则可将“李工”加入词库或调整其词频;如果通讯录中记录其职位为“经理”,则可将“李总”或者“李经理”加入词库或调整其词频,等等。另外,如果能够判断人名的性别为男性,则可以将“李先生”等加入词库或调整其词频。如果能够判断其年龄较大,则可将“老李”加入词库或调整其词频。如果能够同时判断其性别为男性且年龄较大,则可将“李哥”加入词库或调整其词频。
总之,在实际应用中,可以通过多种途径来获知用户对特定称谓的偏好,从而根据用户的用词习惯、用词环境扩展出适合不同用户的衍生词条,满足不同用户的输入需求。
此外,在对“名”部分进行扩展时,两个字以上的“名”有时候只使用部分,例如提取“江涛”的最后一个字“涛”扩展出“涛哥”。因此,可以进一步对两个字以上的“名”部分进行拆分处理,然后提取其中的汉字再加上附加部分,以获得相应的称谓。在实际应用中,如果仅仅对“名”进行扩展,由于“名”的末字通常就是人名的末字,因此简单处理可以直接提取人名的末字而跳过姓名拆分的步骤。
例2,地名:
如前所述,地名是按照地名规则进行拆分和/或变形扩展,具体的地名规则如下:
根据标识地名信息的特定词库,从所述地名中查找包含在该特定词库中的词条,并依据该词条对地名进行拆分。地名扩展时,可以对地名拆分后的部分词条加上附加部分,或者直接对所述地名加上附加部分。
其中,所述特定词库中收集了标识地名信息的词,如省、市、县等表示行政区域划分的词,还有大厦、小区、街道等词,这些词条都可以用来表示地名。因此,当对地名进行拆分时,就可以参照所述特定词库中的词,如果某个名词中包含所述特定词库中的词,则表示该名词为地名,同时可以依据该词对地名进行拆分。例如,“湖南省常德市芦山乡伍家坪村”可以依据“省”、“市”、“乡”、“村”几个词进行拆分,并可以从中提取出“常德”、“芦山”、“伍家坪”放入词库。再例如,“燕莎购物中心”可以拆分提取“燕莎”,“中关村威刚大厦”可以拆分提取“威刚”,并分别存入词库或调整其词频。
对地名进行扩展时,可以对部分拆分得到的词条加上附加部分进行扩展。例如,对“中关村威刚大厦”拆分得到词条“威刚”,基于该词条可以扩展出“威刚大厅”、“威刚附近”、“威刚地下”等衍生词条。或者,还可以对获得的地名不进行拆分而直接进行扩展,例如获得地名“五道口”后,直接扩展为“五道口站”、“五道口附近”、“五道口地铁站”等。其中,对地名进行扩展的附加部分也可以通过分析用户的词条使用情况等各种途径进行收集获取。
例3,可缩写或简称的名词:
有些名词可以缩写或简称,因此可按照缩写或简称规则进行拆分和/或变形扩展。例如,公司名、产品名、物品名等,在很多情况下人们都习惯使用简称,如产品名“立邦油漆”可简称为“立邦漆”;而一些英文名词则习惯使用缩写形式,如中央处理器“Central Pocessing Unit”常常缩写为CPU。
下面分别以公司名、产品名和物品名为例,说明如何按照缩写或简称规则进行拆分和/或变形扩展。
1)公司名:
如果所述可缩写或简称的名词为公司名,则可以根据标识公司信息的特定词库,从所述公司名中查找包含在该特定词库中的词条,并依据该词条对公司名进行拆分;而扩展时,可以提取公司名拆分后的部分词条进行扩展。
其中,所述特定词库收录了“公司”、“有限公司”、“厂”、“企业”等标识公司信息的词条,此外,很多公司名还包含行政区域划分的词条,因此也可以把各省、市等名称也添加到所述特定词库中。这样,如果某个名词中包含所述词库中的某个词条,则可以依据该词条进行拆分。例如,对于公司名“浙江万马有限公司”,可以从词库中匹配出“浙江”和“有限公司”,之后拆分获得“浙江”、“万马”、“有限公司”。然后进行变形扩展时,可以从“浙江”中提取出“浙”与“万马”组合成简称“浙万马”,作为公司全称的衍生词条。当然,也可以直接把“万马”一词作为衍生词条。再例如,所述词库中包含“中国”一词,则可以将“中国石化”拆分为“中国”和“石化”,然后提取“中”和“石化”组合扩展为“中石化”作为简称,当然也可以直接将“石化”作为简称。
2)产品名:
如果所述可缩写或简称的名词为产品名,则可以根据标识产品信息的特定词库,从所述产品名中查找包含在该特定词库中的词条,并依据该词条对产品名进行拆分;扩展时,可以提取产品名拆分后的部分词条进行扩展。
例如,标识产品信息的特定词库中收录了“丰田”一词,则可以将产品名“丰田普锐斯”,拆分为“丰田”和“普锐斯”;如果所述词库中收录了“瓷砖”一词,则可以将“爱堡瓷砖”拆分为“爱堡”和“瓷砖”。
而扩展时,可以直接把“普锐斯”和“爱堡”作为简称。而对于某些产品名,还可以提取产品名拆分后的部分词条进行组合扩展,如“立邦油漆”拆分为“立邦”和“油漆”之后,可以提取“油漆”中的“漆”与“立邦”组合成“立邦漆”作为简称。
3)物品名:
如果所述可缩写或简称的名词为物品名,则可以根据标识物品信息的特定词库,从所述物品名中查找包含在该特定词库中的词条,并依据该词条对物品名进行拆分;扩展时,可以提取物品名拆分后的部分词条进行扩展。
例如,所述识物品信息的特定词库中包含“车”、“桥”等词条,则可以将“公交车”拆分为“公交”和“车”,并将“公交”作为简称;同样,可以将“立交桥”拆分为“立交”和“桥”,并将“立交”作为简称。
此外,有些特殊的地名也有简称,因此也可以按照类似的方法进行拆分和/或变形扩展。例如,内蒙、新疆等少数名族地区的地名通常是少数名族语言音译而来,音译为汉字的地名较长,因此常使用地名的第一个汉字构成简称,如“呼和浩特市”常简称为“呼市”。
综上所述,本实施例除以上对人名、地名、公司名、产品名、物品名等名词的举例说明之外,还可以对更多的名词按照类似方法进行拆分和/或扩展,由于可使用本发明所述方法的名词成千上万,在此就不一一列举。
实施例三:
本实施例将基于上述实施例一和实施例二,说明本发明的几种具体应用情况。
应用场景一:
参照图2,是本发明实施例三中在场景一的名词输入方法流程图。
步骤201,通过预定方式获取名词;
所述预定方式包括:
1)人工编辑名词;
即对输入法词库提供一个编辑接口,供人工编辑输入各种名词。
2)定期从网络下载名词;
用户可以从网络下载各种名词词库,并定期进行更新,从而获取更多更新的名词。
3)获取共享的名词;
即多个用户可以导入同一个名词词库,实现多人共享同一个词库。
4)从通讯录导入名词;
如对于人名,可以从移动终端的通讯录中获取各种人名信息。
5)获取首次输入的名词;
即对用户第一次输入的名词进行收集,从而可以扩充词库。如当用户第一次输入“湖南省常德市芦山乡伍家坪村”时,可以获取该输入并通过拆分、扩展处理得到衍生词条,加入词库。
6)获取规定时间内符合规定输入次数的名词;
例如,当用户在一天之内输入3次““湖南省常德市芦山乡伍家坪村””时,才对该输入进行提取。
7)通过词句拆分提取词句中包含的名词。
例如,对整句“我买的是丰田普锐斯”提取出“丰田普锐斯”,然后再进行拆分扩展。其中,所述词句拆分可以是对用户输入的整句进行拆分,获取其中的名词,也可以从一篇文档中获取。此外,由于在词句拆分过程中会通过词典匹配进行分词处理,所以会识别出哪些是名词。
在实际应用中,可通过上述7种方式中的一种、几种或几种的组合方式来获取名词。而且,除以上列举方式,还可以有多种途径获取到名词,在此不一一列举。
步骤202,对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
具体的拆分和扩展方法以及生成衍生词条的方法如实施例一和实施例二所述。
步骤203,如果词库中不存在所述衍生词条,则将所述衍生词条直接加入词库;如果词库中存在所述衍生词条,则修改词库中所述衍生词条的词频;
步骤204,当用户使用各种输入法输入字符串时,从词库中查找对应该输入字符串的衍生词条,并加入输出候选项,或者调整该衍生词条在输出候选项的位置。
其中,所述输入法包括拼音、五笔、手写输入等各种输入法。例如,当用户使用拼音输入法输入字符串“zhongshihua”时,在使用本发明所述方法之前,由于词库中没有对应的词条“中石化”一词,则无用无法直接从输出候选项中直接选择上屏。而本发明中,“中石化”作为“中国石化”的衍生词条被加入词库中,则当用户输入“zhongshihua”时,“中石化”一词可以直接添加到输出候选项中供用户选择。此外,如果词库中本身有“中石化”一词,则经过对“中国石化”的拆分和扩展处理,可以调整“中石化”一词的词频,从而可以将它排在输出候选项靠前的位置,供用户优先选择。
需要说明的是,为了将某个词调整到输出候选项靠前的位置,上例中通过修改词频仅是其中一种比较常用的调整方法。除此之外,如果词库中存在所述衍生词条,还可以保持该词的词频不变,而是对该词进行标识或者放入另一个词库,当用户输入相应字符串时,可以直接将该词优先显示在输出候选项靠前的位置。
上述过程中,一个名词经过拆分/或扩展处理得到衍生词条之后,可以将衍生词条加入词库或修改词频,从而影响该词条的后续展现。这种情况下,原词库产生了变化,即词库中增加了新词或者词库中的词频发生改变。而在下面一种应用情况下,原词库不会发生任何变化,但名词拆分/或扩展的结果仍会影响输出候选项的内容或顺序,具体如应用场景二所述。
应用场景二:
这是一种从用户词库获取名词并进行拆分和/或扩展的方案。
参照图3,是本发明实施例三中在场景二的名词输入方法流程图。
步骤301,接收用户输入的字符串;
用户可使用拼音、五笔、手写输入等各种输入法,当然,输入法不同,输入的字符串也不同。例如,对于拼音输入法,用户输入的字符串为“jiangtao”。
步骤302,在获取名词的来源中查找与该字符串相关的名词;
查找方法可以为:遍历词库中的所有词条,查找与“jiangtao”相关的词条,所述相关指可以全部或部分匹配“jiangtao”的词条,如词条“李江涛”是部分与“jiangtao”匹配的词条。假设词库中没有“江涛”一词,只有“李江涛”一词,则查找结果为“李江涛”。
还有一种快速查找方法,即:不用遍历词库中的所有词条,而是直接查找与“jiang”和“tao”分别相关的词条,如查找到与“jiang”相关的词条“李江涛”、“王江海”,查找到与“涛”相关的词条“李江涛”、“李海涛”。这种方法可用于词库较大的情况,快速进行查找。
上述获取名词的来源可以是上述列举的输入法词库,也可以是用户当前阅读或使用的网页、文档等,例如用户参照几篇专业性文档进行相关词汇的输入,就可以从这些文档中实时匹配输入的字符串。
步骤303,对查找到的名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
对词库中查找到的“李江涛”一词进行姓和名的拆分,得到衍生词条“李”和“江涛”。
步骤304,直接将所述名词的衍生词条加入对应所述字符串的输出候选项中;或者,调整所述名词的衍生词条的词频,从而调整该衍生词条在输出候选项的位置。
即直接将“江涛”一词加入对应字符串“jiangtao”的输出候选项中。假设原词库中有“江涛”一词,则可以修改该词的词频,从而将“江涛”一词排在输出候选项的靠前位置。
需要说明的是,如前所述,为了将某个词调整到输出候选项靠前的位置,上例中通过修改词频仅是其中一种比较常用的调整方法。除此之外,如果词库中存在所述衍生词条,还可以保持该词的词频不变,而是对该词进行标识或者放入另一个词库,当用户输入相应字符串时,可以直接将该词优先显示在输出候选项靠前的位置。
上述过程中,名词的拆分和/或扩展是在输出词条的过程中现场完成,没有对原词库产生任何影响。这种情况下,可以节省用户本地词库的存储空间,因为拆分和扩展是临时完成的。
当然,本发明不仅仅限定于上述两种应用场景下,可以在任何必要的场景下使用。
另外,如果名词拆分和/或扩展后导致词库中同音词较多,也可以根据实际情况需要对所加入的词条进行调整。例如在拼音输入法中,如果某读音下已经存在较多词条,则放弃该读音下的称谓,或者采取其他措施。例如,词库中已有“老虎”一词,为避免同音冲突,可放弃向词库中加入“老胡”。
实施例四:
参照图4,是本发明实施例四所述一种名词输入的系统结构图。
所述系统主要包括:
名词获取单元1,用于通过预定方式获取名词;
名词拆分扩展单元2,用于对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
候选项调整单元3,用于利用所述衍生词条对输入法的输出候选项进行调整。
其中,所述名词可以为人名,则所述预定规则为人名规则;所述名词也可以为地名,则所述预定规则为地名规则;所述名词还可以为可缩写或简称的名词,则所述预定规则为缩写或简称规则。
当所述名词为人名时:
所述名词拆分扩展单元2可以包括:
人名第一拆分子单元211,用于按照“姓表”对人名进行姓和名的拆分,所述“姓表”中包括单姓和复姓。
优选的,所述名词拆分扩展单元2也可以包括:
人名第二拆分子单元212,用于根据人名中各汉字的位置以及汉字本身构成人名的可能性来判断人名中的汉字是姓还是名,进行姓和名的拆分。
所述人名第一拆分子单元211和人名第二拆分子单元212可以组合使用,也可以单独使用,需要根据实际应用情况选择。
优选的,所述名词拆分扩展单元2还可以包括:
人名扩展子单元213,用于对人名拆分后的姓和/或名分别加上附加部分,所述附加部分是通过分析用户对特定称谓的偏好,将所述特定称谓作为附加部分;
其中,通过以下方式分析用户对特定称谓的偏好:
通过分析用户的词条使用情况;
和/或,根据用户的注册信息;
和/或,根据定位信息或网络地址信息;
和/或,根据通讯录中记录的与姓名相关的附属信息,所述附属信息包括职位、性别或年龄信息。
当所述名词为地名时:
所述名词拆分扩展单元2可以包括:
地名拆分子单元221,用于根据标识地名信息的特定词库,从所述地名中查找包含在该特定词库中的词条,并依据该词条对地名进行拆分。
优选的,所述名词拆分扩展单元2还可以包括:
地名扩展子单元222,用于对地名拆分后的部分词条加上附加部分;和/或,直接对所述地名加上附加部分。
当所述名词为可缩写或简称的名词时:
所述名词拆分扩展单元2可以包括:
公司名拆分子单元231,用于当所述可缩写或简称的名词为公司名时,根据标识公司信息的特定词库,从所述公司名中查找包含在该特定词库中的词条,并依据该词条对公司名进行拆分;
产品名拆分子单元232,用于当所述可缩写或简称的名词为产品名时,根据标识产品信息的特定词库,从所述产品名中查找包含在该特定词库中的词条,并依据该词条对产品名进行拆分;
物品名拆分子单元233,用于当所述可缩写或简称的名词为物品名时,根据标识物品信息的特定词库,从所述物品名中查找包含在该特定词库中的词条,并依据该词条对物品名进行拆分。
优选的,所述名词拆分扩展单元2还可以包括:
公司名扩展子单元234,用于当所述可缩写或简称的名词为公司名时,提取公司名拆分后的部分词条进行扩展;
产品名扩展子单元235,用于当所述可缩写或简称的名词为产品名时,提取产品名拆分后的部分词条进行扩展;
物品名扩展子单元236,用于当所述可缩写或简称的名词为物品名时,提取物品名拆分后的部分词条进行扩展。
所述名词拆分扩展单元2可以同时包括人名第一拆分子单元211至物品名扩展子单元236共11个子单元,这种情况下,名词拆分扩展单元2可以对人名、地名、公司名、产品名和物品名进行拆分和扩展处理。当然,所述名词拆分扩展单元2也可以按照对包括其中的几个子单元,即仅对人名进行拆分和扩展处理,或者对地名进行处理等。
优选的,上述名词拆分扩展单元2是对所述名词按照预定规则进行拆分,拆分后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行变形扩展,扩展后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行拆分,并利用拆分后得到的词条进行变形扩展,将拆分后得到的词条和/或变形扩展后得到的词条作为基于该名词的衍生词条。总之,所述名词拆分扩展单元2在对名词进行拆分和扩展的基础上,可以通过多种方式生成衍生词条。
优选的,如果词库中不存在所述衍生词条,则所述候选项调整单元3将所述衍生词条直接加入词库,并在输入对应字符串时加入输出候选项;如果词库中存在所述衍生词条,则所述候选项调整单元3在输入对应字符串时调整在输出候选项的位置优先显示。
优选的,所述名词获取单元1获取名词的预定方式包括:
人工编辑名词;
和/或,定期从网络下载名词;
和/或,获取共享的名词;
和/或,从通讯录导入名词;
和/或,获取首次输入的名词;
和/或,获取规定时间内符合规定输入次数的名词;
和/或,通过词句拆分提取词句中包含的名词。
优选的,所述系统还可以包括:
输入单元4,用于接收用户输入的字符串;
则所述名词获取单元1通过预定方式获取名词为:在获取名词的来源中查找与该字符串相关的名词;
则所述名词拆分扩展单元2对名词进行拆分和/或变形扩展是指对查找到的名词进行拆分和/或变形扩展。
优选的,所述候选项调整单元3直接将所述名词的衍生词条加入对应所述字符串的输出候选项中;或者,调整该衍生词条在输出候选项的位置优先显示。
综上所述,本实施例所述的名词输入系统可以对已有的各种名词进行拆分和扩展,得到各种相关形式的衍生词条,并利用这些衍生词条对输入法输出候选项的内容和顺序进行调整,以提高用户选词的命中率,从而提高输入效率。而且,由于可以在用户本地基于词库中的名词生成更多的衍生名词,因此通过网络传输的词库数据量相对较少,从而提高了传输效率。
上述四个实施例所述的方法及系统可应用于各种类型的计算机系统,也可应用于手机、PDA等移动终端。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种名词输入的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (32)

1.一种名词输入的方法,其特征在于,包括:
通过预定方式获取名词;
对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
利用所述衍生词条对输入法的输出候选项进行调整。
2.根据权利要求1所述的方法,其特征在于:所述名词为人名,则所述预定规则为人名规则。
3.根据权利要求1所述的方法,其特征在于:所述名词为地名,则所述预定规则为地名规则。
4.根据权利要求1所述的方法,其特征在于:所述名词为可缩写或简称的名词,则所述预定规则为缩写或简称规则。
5.根据权利要求2所述的方法,其特征在于,对所述人名按照人名规则进行拆分包括:
按照“姓表”对人名进行姓和名的拆分,所述“姓表”中包括单姓和复姓。
6.根据权利要求2所述的方法,其特征在于,对所述人名按照人名规则进行拆分包括:
根据人名中各汉字的位置以及汉字本身构成人名的可能性来判断人名中的汉字是姓还是名,进行姓和名的拆分。
7.根据权利要求5或6所述的方法,其特征在于,对所述人名按照人名规则进行变形扩展包括:
对人名拆分后的姓和/或名分别加上附加部分,所述附加部分是通过分析用户对特定称谓的偏好,将所述特定称谓作为附加部分;
其中,通过以下方式分析用户对特定称谓的偏好:
通过分析用户的词条使用情况;
和/或,根据用户的注册信息;
和/或,根据定位信息或网络地址信息;
和/或,根据通讯录中记录的与姓名相关的附属信息,所述附属信息包括职位、性别或年龄信息。
8.根据权利要求3所述的方法,其特征在于,对所述地名按照地名规则进行拆分包括:
根据标识地名信息的特定词库,从所述地名中查找包含在该特定词库中的词条,并依据该词条对地名进行拆分。
9.根据权利要求8所述的方法,其特征在于,对所述地名按照地名规则进行变形扩展包括:
对地名拆分后的部分词条加上附加部分;
和/或,直接对所述地名加上附加部分。
10.根据权利要求4所述的方法,其特征在于,对所述可缩写或简称的名词按照缩写或简称规则进行拆分包括:
所述可缩写或简称的名词为公司名,则根据标识公司信息的特定词库,从所述公司名中查找包含在该特定词库中的词条,并依据该词条对公司名进行拆分;
所述可缩写或简称的名词为产品名,则根据标识产品信息的特定词库,从所述产品名中查找包含在该特定词库中的词条,并依据该词条对产品名进行拆分;
所述可缩写或简称的名词为物品名,则根据标识物品信息的特定词库,从所述物品名中查找包含在该特定词库中的词条,并依据该词条对物品名进行拆分。
11.根据权利要求10所述的方法,其特征在于,对所述可缩写或简称的名词按照缩写或简称规则进行变形扩展包括:
所述可缩写或简称的名词为公司名,则提取公司名拆分后的部分词条进行扩展;
所述可缩写或简称的名词为产品名,则提取产品名拆分后的部分词条进行扩展;
所述可缩写或简称的名词为物品名,则提取物品名拆分后的部分词条进行扩展。
12.根据权利要求1至4任一所述的方法,其特征在于,对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条包括:
对所述名词按照预定规则进行拆分,拆分后得到的词条作为基于该名词的衍生词条;
或者,对所述名词按照预定规则进行变形扩展,扩展后得到的词条作为基于该名词的衍生词条;
或者,对所述名词按照预定规则进行拆分,并利用拆分后得到的词条进行变形扩展,将拆分后得到的词条和/或变形扩展后得到的词条作为基于该名词的衍生词条。
13.根据权利要求1至4任一所述的方法,其特征在于,利用所述衍生词条对输入法的输出候选项进行调整包括:
如果词库中不存在所述衍生词条,则将所述衍生词条直接加入词库,并在输入对应字符串时加入输出候选项;
如果词库中存在所述衍生词条,则在输入对应字符串时调整在输出候选项的位置优先显示。
14.根据权利要求1至4任一所述的方法,其特征在于,所述通过预定方式获取名词包括:
输入法系统获取人工编辑的名词;
和/或,定期从网络下载名词;
和/或,获取共享的名词;
和/或,从通讯录导入名词;
和/或,获取首次输入的名词;
和/或,获取规定时间内符合规定输入次数的名词;
和/或,通过词句拆分提取词句中包含的名词。
15.根据权利要求1至4任一所述的方法,其特征在于,所述通过预定方式获取名词之前,还包括:
接收用户输入的字符串;
则所述通过预定方式获取名词为:在获取名词的来源中查找与该字符串相关的名词;
则所述对名词进行拆分和/或变形扩展是指对查找到的名词进行拆分和/或变形扩展。
16.根据权利要求15所述的方法,其特征在于,利用所述衍生词条对输入法的输出候选项进行调整包括:
直接将所述名词的衍生词条加入对应所述字符串的输出候选项中;
或者,调整该衍生词条在输出候选项的位置优先显示。
17.一种名词输入的系统,其特征在于,包括:
名词获取单元,用于通过预定方式获取名词;
名词拆分扩展单元,用于对所述名词按照预定规则进行拆分和/或变形扩展,生成基于该名词的衍生词条;
候选项调整单元,用于利用所述衍生词条对输入法的输出候选项进行调整。
18.根据权利要求17所述的系统,其特征在于:所述名词为人名,则所述预定规则为人名规则。
19.根据权利要求17所述的系统,其特征在于:所述名词为地名,则所述预定规则为地名规则。
20.根据权利要求17所述的系统,其特征在于:所述名词为可缩写或简称的名词,则所述预定规则为缩写或简称规则。
21.根据权利要求18所述的系统,其特征在于,所述名词拆分扩展单元包括:
人名第一拆分子单元,用于按照“姓表”对人名进行姓和名的拆分,所述“姓表”中包括单姓和复姓。
22.根据权利要求18所述的系统,其特征在于,所述名词拆分扩展单元包括:
人名第二拆分子单元,用于根据人名中各汉字的位置以及汉字本身构成人名的可能性来判断人名中的汉字是姓还是名,进行姓和名的拆分。
23.根据权利要求21或22所述的系统,其特征在于,所述名词拆分扩展单元还包括:
人名扩展子单元,用于对人名拆分后的姓和/或名分别加上附加部分,所述附加部分是通过分析用户对特定称谓的偏好,将所述特定称谓作为附加部分;
其中,通过以下方式分析用户对特定称谓的偏好:
通过分析用户的词条使用情况;
和/或,根据用户的注册信息;
和/或,根据定位信息或网络地址信息;
和/或,根据通讯录中记录的与姓名相关的附属信息,所述附属信息包括职位、性别或年龄信息。
24.根据权利要求19所述的系统,其特征在于,所述名词拆分扩展单元包括:
地名拆分子单元,用于根据标识地名信息的特定词库,从所述地名中查找包含在该特定词库中的词条,并依据该词条对地名进行拆分。
25.根据权利要求24所述的系统,其特征在于,所述名词拆分扩展单元还包括:
地名扩展子单元,用于对地名拆分后的部分词条加上附加部分;和/或,直接对所述地名加上附加部分。
26.根据权利要求20所述的系统,其特征在于,所述名词拆分扩展单元包括:
公司名拆分子单元,用于当所述可缩写或简称的名词为公司名时,根据标识公司信息的特定词库,从所述公司名中查找包含在该特定词库中的词条,并依据该词条对公司名进行拆分;
产品名拆分子单元,用于当所述可缩写或简称的名词为产品名时,根据标识产品信息的特定词库,从所述产品名中查找包含在该特定词库中的词条,并依据该词条对产品名进行拆分;
物品名拆分子单元,用于当所述可缩写或简称的名词为物品名时,根据标识物品信息的特定词库,从所述物品名中查找包含在该特定词库中的词条,并依据该词条对物品名进行拆分。
27.根据权利要求26所述的系统,其特征在于,所述名词拆分扩展单元还包括:
公司名扩展子单元,用于当所述可缩写或简称的名词为公司名时,提取公司名拆分后的部分词条进行扩展;
产品名扩展子单元,用于当所述可缩写或简称的名词为产品名时,提取产品名拆分后的部分词条进行扩展;
物品名扩展子单元,用于当所述可缩写或简称的名词为物品名时,提取物品名拆分后的部分词条进行扩展。
28.根据权利要求17至20任一所述的系统,其特征在于:
所述名词拆分扩展单元是对所述名词按照预定规则进行拆分,拆分后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行变形扩展,扩展后得到的词条作为基于该名词的衍生词条;或者,对所述名词按照预定规则进行拆分,并利用拆分后得到的词条进行变形扩展,将拆分后得到的词条和/或变形扩展后得到的词条作为基于该名词的衍生词条。
29.根据权利要求17至20任一所述的系统,其特征在于:
如果词库中不存在所述衍生词条,则所述候选项调整单元将所述衍生词条直接加入词库,并在输入对应字符串时加入输出候选项;如果词库中存在所述衍生词条,则所述候选项调整单元在输入对应字符串时调整在输出候选项的位置优先显示。
30.根据权利要求17至20任一所述的系统,其特征在于,所述预定方式包括:
人工编辑名词;
和/或,定期从网络下载名词;
和/或,获取共享的名词;
和/或,从通讯录导入名词;
和/或,获取首次输入的名词;
和/或,获取规定时间内符合规定输入次数的名词;
和/或,通过词句拆分提取词句中包含的名词。
31.根据权利要求17至20任一所述的系统,其特征在于,还包括:
输入单元,用于接收用户输入的字符串;
则所述名词获取单元通过预定方式获取名词为:在获取名词的来源中查找与该字符串相关的名词;
则所述名词拆分扩展单元对名词进行拆分和/或变形扩展是指对查找到的名词进行拆分和/或变形扩展。
32.根据权利要求31所述的系统,其特征在于:
所述候选项调整单元直接将所述名词的衍生词条加入对应所述字符串的输出候选项中;或者,调整该衍生词条在输出候选项的位置优先显示。
CN201010197817.4A 2010-06-03 2010-06-03 一种名词输入的方法及系统 Active CN102270048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010197817.4A CN102270048B (zh) 2010-06-03 2010-06-03 一种名词输入的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010197817.4A CN102270048B (zh) 2010-06-03 2010-06-03 一种名词输入的方法及系统

Publications (2)

Publication Number Publication Date
CN102270048A true CN102270048A (zh) 2011-12-07
CN102270048B CN102270048B (zh) 2016-04-20

Family

ID=45052370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010197817.4A Active CN102270048B (zh) 2010-06-03 2010-06-03 一种名词输入的方法及系统

Country Status (1)

Country Link
CN (1) CN102270048B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019405A (zh) * 2012-11-12 2013-04-03 东莞宇龙通信科技有限公司 一种人名输入方法及装置
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103365427A (zh) * 2012-03-31 2013-10-23 联想(北京)有限公司 一种对输入内容进行调整的方法及电子设备
CN103428363A (zh) * 2012-05-08 2013-12-04 纽昂斯通讯公司 提供改进的语音激活功能的方法和装置
CN103631521A (zh) * 2013-12-12 2014-03-12 华为终端有限公司 一种触控屏输入方法和终端
CN104375662A (zh) * 2014-11-10 2015-02-25 天津三星通信技术研究有限公司 拼音输入方法及装置
WO2015024212A1 (zh) * 2013-08-21 2015-02-26 宇龙计算机通信科技(深圳)有限公司 输入提示系统、输入提示方法和终端
CN105022547A (zh) * 2014-04-24 2015-11-04 刘健萍 一种文本输入法及装置
CN106201012A (zh) * 2016-07-01 2016-12-07 乐视控股(北京)有限公司 词组拆分方法及装置
CN106407314A (zh) * 2016-08-31 2017-02-15 李城华 人名自动计算方法及系统
CN109901726A (zh) * 2017-12-08 2019-06-18 北京搜狗科技发展有限公司 一种候选词生成方法、装置及用于候选词生成的装置
CN109961791A (zh) * 2017-12-22 2019-07-02 北京搜狗科技发展有限公司 一种语音信息处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050197829A1 (en) * 2004-03-03 2005-09-08 Microsoft Corporation Word collection method and system for use in word-breaking
CN1924858A (zh) * 2006-08-09 2007-03-07 北京搜狗科技发展有限公司 一种获取新词的方法、装置以及一种输入法系统
CN101118538A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
CN101634905A (zh) * 2009-07-01 2010-01-27 广东国笔科技股份有限公司 一种智能联想输入系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050197829A1 (en) * 2004-03-03 2005-09-08 Microsoft Corporation Word collection method and system for use in word-breaking
CN1924858A (zh) * 2006-08-09 2007-03-07 北京搜狗科技发展有限公司 一种获取新词的方法、装置以及一种输入法系统
CN101118538A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
CN101634905A (zh) * 2009-07-01 2010-01-27 广东国笔科技股份有限公司 一种智能联想输入系统及方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613311B2 (en) 2012-03-31 2017-04-04 Beijing Lenovo Software Ltd. Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element
CN103365427A (zh) * 2012-03-31 2013-10-23 联想(北京)有限公司 一种对输入内容进行调整的方法及电子设备
CN103428363B (zh) * 2012-05-08 2017-09-15 纽昂斯通讯公司 提供改进的语音激活功能的方法和装置
CN103428363A (zh) * 2012-05-08 2013-12-04 纽昂斯通讯公司 提供改进的语音激活功能的方法和装置
CN103019405B (zh) * 2012-11-12 2016-06-08 东莞宇龙通信科技有限公司 一种人名输入方法及装置
CN103019405A (zh) * 2012-11-12 2013-04-03 东莞宇龙通信科技有限公司 一种人名输入方法及装置
CN103076894B (zh) * 2012-12-31 2016-05-18 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
WO2015024212A1 (zh) * 2013-08-21 2015-02-26 宇龙计算机通信科技(深圳)有限公司 输入提示系统、输入提示方法和终端
CN104885038A (zh) * 2013-08-21 2015-09-02 宇龙计算机通信科技(深圳)有限公司 输入提示系统、输入提示方法和终端
CN104885038B (zh) * 2013-08-21 2018-04-10 宇龙计算机通信科技(深圳)有限公司 输入提示系统、输入提示方法和终端
CN103631521A (zh) * 2013-12-12 2014-03-12 华为终端有限公司 一种触控屏输入方法和终端
CN105022547A (zh) * 2014-04-24 2015-11-04 刘健萍 一种文本输入法及装置
CN104375662B (zh) * 2014-11-10 2017-06-06 天津三星通信技术研究有限公司 拼音输入方法及装置
CN104375662A (zh) * 2014-11-10 2015-02-25 天津三星通信技术研究有限公司 拼音输入方法及装置
CN106201012A (zh) * 2016-07-01 2016-12-07 乐视控股(北京)有限公司 词组拆分方法及装置
CN106407314A (zh) * 2016-08-31 2017-02-15 李城华 人名自动计算方法及系统
CN109901726A (zh) * 2017-12-08 2019-06-18 北京搜狗科技发展有限公司 一种候选词生成方法、装置及用于候选词生成的装置
CN109961791A (zh) * 2017-12-22 2019-07-02 北京搜狗科技发展有限公司 一种语音信息处理方法、装置及电子设备
CN109961791B (zh) * 2017-12-22 2021-10-22 北京搜狗科技发展有限公司 一种语音信息处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN102270048B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN102270048A (zh) 一种名词输入的方法及系统
US10168800B2 (en) Synchronization of text data among a plurality of devices
KR101465770B1 (ko) 단어 확률 결정
KR101312788B1 (ko) 지역 워드 휠링/웹 검색을 위한 통계 정보 기반 분류를 위한 컴퓨터 구현 시스템 및 방법
US10783885B2 (en) Image display device, method for driving the same, and computer readable recording medium
US20130013644A1 (en) Method and apparatus for seeded user interest modeling
CN102236423B (zh) 一种字符自动补充的方法、装置和输入法系统
CN106020504B (zh) 信息输出方法和装置
CN102880649A (zh) 一种个性化信息处理方法和系统
CN101430714B (zh) 一种基于样式的内容结构化加工方法及系统
US20140019452A1 (en) Method and apparatus for clustering search terms
CN104919522A (zh) 分布式nlu/nlp
CN101520786A (zh) 一种输入法词典的实现方法和输入法系统
US20070164782A1 (en) Multi-word word wheeling
CN106126503B (zh) 业务领域定位方法及终端
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
CN104079640A (zh) 一种用户服务提供方法及系统
CN103177039A (zh) 一种数据处理方法及装置
CN101271449B (zh) 裁减词表和为汉字串注音的方法及装置
CN104199977A (zh) 一种基于数据库中数据创建信息搜索的方法
US20080312901A1 (en) Character input assist method, character input assist system, character input assist program, user terminal, character conversion method and character conversion program
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN101777067B (zh) 一种用于移动通讯设备终端的网页内容识别管理系统
US20200387815A1 (en) Building training data and similarity relations for semantic space
KR20130131657A (ko) 브랜드 네이밍 방법 및 네이밍 시스템, 그 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant