CN101470732B - 一种辅助词库的生成方法和装置 - Google Patents

一种辅助词库的生成方法和装置 Download PDF

Info

Publication number
CN101470732B
CN101470732B CN2007103042805A CN200710304280A CN101470732B CN 101470732 B CN101470732 B CN 101470732B CN 2007103042805 A CN2007103042805 A CN 2007103042805A CN 200710304280 A CN200710304280 A CN 200710304280A CN 101470732 B CN101470732 B CN 101470732B
Authority
CN
China
Prior art keywords
dictionary
user
colony
word frequency
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007103042805A
Other languages
English (en)
Other versions
CN101470732A (zh
Inventor
张军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2007103042805A priority Critical patent/CN101470732B/zh
Publication of CN101470732A publication Critical patent/CN101470732A/zh
Application granted granted Critical
Publication of CN101470732B publication Critical patent/CN101470732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种辅助词库的生成方法和装置,所述方法可以包括:获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。本发明能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。

Description

一种辅助词库的生成方法和装置
技术领域
本发明涉及计算机字符信息的输入领域,特别是涉及一种用于字符输入的辅助词库的生成方法和装置。 
背景技术
在现代的计算机应用中,汉字输入法已经成为中文用户与计算机交互的重要手段。汉字输入法技术需要将用户的一连串键盘按键翻译成用户最可能想要的汉字串。大部分汉字输入方法的规则下,按键串到汉字串并不是一一对应的,特别是被广泛使用的拼音输入法,相同的按键串往往对应着多种可能的词汇、短语或者句子。要提高用户的输入效率,汉字输入法就需要带有一个“词库”,词库中含有用户最可能会使用的汉字、词语和短句。 
但是,目前输入法的词库一般只能够覆盖人们使用的词汇的一部分,通常主要包括一些人们普遍的常用词汇,还有一部分词汇输入法词库是不可能全部包括进来的。因为现有的输入法词库都是通用的,针对的是所有用户,如果把所有用户用的词汇都加入进来,那么输入法的词库容量将在数百万的量级。词库过大,同音字过多,候选项增加,不需要使用这些词的用户会受到干扰,并且,这样一个超大的词库势必大幅占用硬盘、CPU、内存等计算设备资源,对个人电脑来说是不能接受的。 
其次,由于汉语的灵活性,各种词语丰富而多样,每个人都有自己偏好使用的词汇集合,即使同样一个词汇对于不同的人而言,其使用词频都可能是不同的。 
例如,每个人在使用输入法时除了输入许多常用词汇之外(例如“现在”、“时间”、“多少”等),还会输入一小部分人用的词汇,例如:一些游戏名词“艾泽拉斯”“德鲁伊”,电影名称“云水谣”等等。这些词汇对非常小的群体来说会经常输入,例如:魔兽世界玩家,电影评论家等等;但是这些词汇在总体用户中的使用比例比较低,为了保证词库的通用性,现有模式下面向所有用户的输入法词库是不可能把这些词汇全部包括进去的。 
上述现有技术的缺陷,导致用户输入上述这些小群体的常用词汇时的首选词准确率非常低,严重影响用户的使用体验以及其思想的表达。 
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创造性的提出一种获取某个用户群体常用的个性化词汇,并进一步能够根据使用者的具体情况来提供个性化的辅助词库,以提高用户的输入效率。 
发明内容
本发明所要解决的技术问题是提供一种辅助词库的生成方法和装置,能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。 
为了解决上述问题,本发明公开了一种辅助词库的生成方法,可以包括:获取一特定用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的、属于该特定用户群体的特色字词及其词频;生成针对该特定用户群体的辅助词库。 
优选的,所述历史输入字词及其词频的获取步骤可以包括:通过汇集一特定用户群体的个人词库而获得该特定用户群体的历史输入字词及其词频。 
优选的,所述历史输入字词及其词频的获取步骤可以包括:通过针对该特定用户群体的文字素材进行分词统计而获得;或者,通过该特定用户群体的用户手动添加相应的字词及其词频而获得。 
优选的,通过以下方式汇集一特定用户群体的个人词库:收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该用户的特征参数;计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。 
优选的,也可以通过以下方式汇集一特定用户群体的个人词库:收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该个人词库的特征参数;计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。 
优选的,所述预置条件包括:目标字词在该特定用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。 
优选的,所述的方法还可以包括:接受用户的下载请求,向用户发布相应特定用户群体的辅助词库;或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助词库;所述网络空间指向一特定用户群体。 
优选的,所述的方法还可以包括:向通过个人词库聚类得到的特定用户群体发布所述生成的针对该特定用户群体的辅助词库。 
依据本发明的另一优选实施例,还公开了一种辅助词库的生成装置,可以包括: 
历史信息获取模块,用于获取一特定用户群体的历史输入字词及其词频; 
分析模块,用于分析所述历史输入字词及其词频,获取符合预置条件的、属于该特定用户群体的特色字词及其词频; 
词库生成模块,用于生成针对该特定用户群体的辅助词库。 
优选的,所述历史信息获取模块通过汇集一特定用户群体的个人词库而获得该特定用户群体的历史输入字词及其词频。 
优选的,所述历史信息获取模块通过针对该特定用户群体的文字素材进行分词统计而获得;或者,所述历史信息获取模块通过该特定用户群体的用户手动添加相应的字词及其词频而获得。 
优选的,所述历史信息获取模块进一步包括: 
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频; 
特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库的特征参数; 
群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。 
优选的,所述历史信息获取模块也可以进一步包括: 
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频; 
特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特征参数; 
群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用 户的聚类,进而获取所需的个人词库。 
优选的,所述预置条件包括:目标字词在该特定用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。 
优选的,所述的装置还可以包括:发布模块,用于接受用户的下载请求,向用户发布相应特定用户群体的辅助词库;或者,当用户登录一网络空间时,该网络空间触发所述发布模块向用户发布所述生成的辅助词库;所述网络空间指向一特定用户群体。 
优选的,所述的装置还可以包括:发布模块,用于向通过个人词库聚类得到的特定用户群体发布所述生成的针对该特定用户群体的辅助词库。 
与现有技术相比,本发明具有以下优点: 
在社会生活中,任何一种社会群体,必然是由相互之间以某种共同基础相互联系的一群人组成的。那么,在他们的语言及文字交流中,必然会有一批在其圈子内部比之一般大众更为常用的特色词汇。那么在这些个体输入文字的历史过程中,就会较多地通过输入法使用这些词汇。 
本发明就是通过对这些用户群体所使用的“历史”词汇进行分析,发现适用于圈子成员的特色词汇,从而聚合成辅助词库一一圈子词库。本发明可以将同一用户群体中的特殊词汇迅速共享至各个用户,提高用户的输入效率;尤其对于刚刚加入该用户群体(圈子)的用户而言,完全可以避免前期积累个性词汇的过程。 
图1是本发明一种辅助词库的生成方法实施例1的步骤流程图; 
图2是本发明一种获取一群体个人词库的解决方案的步骤流程图; 
附图说明
图3是本发明另一种获取一群体个人词库的解决方案的步骤流程图; 
图4是本发明一种辅助词库的生成方法实施例2的步骤流程图; 
图5是本发明一种辅助词库的生成装置实施例的结构框图。 
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。 
本发明可以应用于各种输入方式的输入法平台,包括键盘符号、手写信息以及语音输入等等。即所述输入信息可以包括编码字符串,也可以包括手写输入信息以及语音输入的信息,因为这些输入方式也都需要用到词库进行候选项排序。由于这些输入方式中的信息转换都属于公知技术,在此就不详述了。下面仅仅以编码字符串输入为例进行详细说明。 
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、包括以上任何系统或设备的分布式计算环境等等。 
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。 
虽然在前述的背景技术中,是以汉语输入为例而引出本发明要解决的技术问题的,但是本领域技术人员易于得知,对于日文、韩文等也需要应用词库进行输入的输入法应用而言,本发明同样可以适用,因为本发明的改进重点在于对词库的改进,而对具体转换规则并不限定。其次,由于本发明在上述几种输入法系统中的应用都是相似的,所以为了方便说明,下面仅以对本发明应用在中文的情况进行举例说明。 
参照图1,示出了本发明一种辅助词库的生成方法实施例1,具体可以包括以下步骤: 
步骤101、获取一用户群体的历史输入字词及其词频; 
步骤101中所采用的词频信息一词是输入法领域常用的词汇,在计算机内部可以表示为一个或者一系列数据,用来评价(预测)针对某个候选字词被用户选择的可能性。其除了可以包括表示词汇的输入频率信息以外,还包括 单字的输入频率信息;其中的输入频率信息可以为绝对值,也可以为相对值,还可以为经过一定策略或者算法处理过的间接表示输入频率的其他数值。 
步骤102、分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频; 
步骤103、生成针对该用户群体的辅助词库。由于得到的辅助词库是针对一特定的用户群体的,因此,本说明书中也将该用户群体的辅助词库称之为圈子词库。而本发明并不需要对用户群体(圈子)的范围大小作限定,例如,通过本发明可以得到面向社会的一个阶层、某行业的从业人员的圈子词库,也可以得到面向某个社区的居民、某运动俱乐部的成员、某明星的爱好者的圈子词库。 
实施例1通过收集属于同一群体的用户的历史语料,并对其进行分析,可以得到属于该群体的一些特色字词(即一般用户不常使用的字词),并将其生成辅助词库,帮助用户更高效率的完成输入。 
由于本发明的目的就是获取属于该群体的一些特色字词,因此,步骤102中的预置条件可以示例如下:当某个字词在该用户群体的历史语料中的词频高于预设阈值,而在通用词库中的词频小于预设阈值时,则确定该目标字词是本发明所需要获取的属于该群体的特色字词。当然,为了实现上述预置条件的判断,具体的可以设定各种复杂的数学判定公式。 
如果满足上述预置条件,则说明在满足一般用户的通常使用的通用词库中没有这个目标字词(即词频为零),或者即使在通用词库中存在这个目标字词,但是其词频较低,不属于一般用户的常用字词,但是其又是从一用户群体的历史语料中得到的,因此,就可以认为其属于本发明所需的特色字词。当通用词库中没有该特色字词时,则向辅助词库中添加该特色字词,相当于添加新词以提高用户输入效率;当通用词库中该特色字词的词频相对较低时,则在辅助词库中改变该特色字词的词频,相当于通过改变词频,使得该特色字词的位置靠前甚至首选,以提高用户输入效率。 
需要说明的是,本领域技术人员完全可以采用其他可行的筛选条件,例如,仅仅判断一个字词在该用户群体的历史语料中的词频高于预设阈值,就确定该 字词属于该群体的特色字词。该筛选条件在一定程度上也可以满足本发明的需求。 
步骤103所得到的辅助词库,在本领域中一般用于表示在输入法系统词库(通用词库)之外,帮助用户提高完成输入的其他词库,例如,输入法系统中用户的个人词库就是一种辅助词库,。当然本发明所生成的辅助词库可以与用户的个人词库相并存,也可以单独存在。 
本发明所述的“个人词库”通常也称之为“用户词库”,为了避免和“用户”一词重复,因此主要采用“个人词库”进行说明。现有输入法系统中的系统词库就是一种面向大众的通用词库,因此为了符合用词习惯,下面主要采用“系统词库”一词进行说明。 
本发明的辅助词库主要用于记录扩展字词及其相关信息;其中,可以包含词条信息,也可以包含词条的词频或者词序信息。词频信息表达的是用户使用该词条的可能性,其相对大小能够代表词序。词序信息用来表达词条的相对重要性,通常可以反映为词条在候选项中的排序位置。某些情况下,也可以直接指定某词条在候选项中的位置(或者位置范围)。对于中文拼音输入法,辅助词库中的词条通常与对应的拼音信息进行关联。但也可以直接与字母序列进行关联,例如,搜狗拼音输入法中的“自定义短语”。 
对于一些极端情况,辅助词库中还可以不包括词频信息,例如,词条较少,并且没有重复对应同一拼音编码的情况。一般的,辅助词库中需要包括词频信息,所述词频信息可以直接由历史语料汇集得到(如分词统计),也可以经过修正调整后确定(如依据权重调整,或者依据一定规则对所有词频进行相同规律的调整等)。 
至于辅助词库如何与系统词库相结合而完成整个输入过程,在现有技术中个人词库与系统词库的应用中已经有很好的体现,本发明在此不再详述。一般的,可以设置辅助词库的优先级高于系统词库,也可以设置辅助词库的优先级低于系统词库。 
本发明可以通过各种方式获取所需的属于一个用户群体的历史输入字词及其词频。下面给出本发明可能应用的几个具体方式: 
方式1 
首先,确认属于一个群体的各个输入法用户; 
然后,收集该群体的各个用户的个人词库,由于个人词库中存储有该用户的个性化词汇,因此,汇集这些信息,就可以获得该用户群体的历史输入字词及其词频。 
其中,可以通过用户自行登记的方式确定属于一个群体的输入法用户;也可以通过专门人员人工分类的方式确定属于一个群体的输入法用户;还可以通过收集个人词库,然后通过计算将各个人词库划分为多个群体,从而确定属于一个群体的输入法用户。 
方式2 
首先,收集各用户的个人词库; 
然后,将所收集的多个个人词库进行归类,每一个类别视为一个用户群体的历史语料集合;由于个人词库中存储有该用户的个性化词汇,因此,汇集这些信息,就可以获得该用户群体的历史输入字词及其词频。 
方式3 
首先,确认属于一个群体的文字素材;例如,某个论坛或某个社区的帖子、文章等; 
然后,对所述文字素材进行分词统计而获得该用户群体的历史输入字词及其词频。 
方式4 
首先,确认属于一个群体的各项特征;当然,也可以简单的确定群体名称即可; 
然后,由自认为符合上述特征的用户,手动添加相应的字词及其词频。当然,所述手动添加的行为也可以不限于用户,如,语言专家或者本领域技术人员也可以添加相应的字词及其词频。 
对于方式2、3和4可以事先不确定一个群体的用户,直接获取该群体的历史语料。 
上述三个方式也可以相互补充,组合使用,例如,以方式1为主,并引入方式2和3以获取更多更完善的历史语料。需要说明的是,本发明的重点之一 是针对一群体的历史语料进行分析,对于如何具体划分用户群体或者如何获取一群体的历史语料,本发明并不需要加以限定,采用人工分类或者计算机自动分类都是可行的。 
下面对上述的方式1的具体分析提取“特色字词”的过程进行示例性描述。采用其他方式获取以用户群体历史语料后的分析过程基本形似,参照即可。 
采用方式1进行步骤102所需的输入是:某个圈子的众多个人已经积累的“个人词库”;以及,一个无偏向性的面向所有用户的“通用词库”。这两类词库各自包含一些互相之间有可能有重叠的词汇,以及这些词汇在各自词库中的“词频”。最后的输出是获得一个针对该群体的包含词汇和词频的圈子词库。 
具体的实现思路可以如下:将个人词库中的所有词汇作为备选,选择那些具有符合下列状况的词汇进入圈子词库:1、这个词汇在上述个人词库中普遍出现;2、这个词汇在“通用词库”中不存在或者具有较低词频。 
目标字词被选入圈子词库时所被赋予的词频,是它在每个个人词库中的词频的和;如果这些被选入的词汇各自的词频和普遍较大,可以对它们按比例进行降频。 
下面举一个具体的实现算法的例子,仅仅作为一个可行性的例证。本领域技术人员完全可以采用与此例在流程、算式形式、参数等细节上有所不同的其他过程。 
为了说明该示例的计算过程,我们使用以下标记: 
GK:通用词库的总词频; 
GM:通用词库的总词汇数; 
w:备选词汇,即,一个出现在某个或某些个人词库中的词汇; 
GF(w):备选词w在通用词库中的词频,如果w未出现在通用词库中,GF(w)=0; 
GP(w):=(GF(w)/(GK/GM)),反映了备选词w在通用词库(系统词库)中词频的相对高低。如果GP(w)大于1,表示该词的词频大于平均词频。 
N:个人词库的数目; 
Dn:编号为n的一个个人词库; 
Mn:编号为n的个人词库的总词频; 
Kn:编号为n的个人词库的总词汇数; 
Fn(w):备选词w在第n个个人词库Dn中的词频。若w没有出现在Dn中,则Fn(w)=0; 
T(w):含有备选词w的个人词库的个数; 
0(w):=T(w)/N,即备选词w在所有个人词库中的出现概率; 
P(w):=∑Fn(w)/(∑Mn/∑Kn),(其中n取1...N)。反映了备选词在所有个人词库中的词频相对于所有个人词库的平均词频的大小。 
首先,依次统计和计算备选词汇和每个个人词库的上述相关各值。 
然后,选取同时符合如下条件的词汇进入圈子词库: 
1,0(w)>α;2,P(w)>β;3,GP(w)<γ。 
其中α是常量,可行的取值范围在(0,1),取值越大,筛选越严格;β是常量,可行的取值范围在(0,+∞),取值越大,筛选越严格;γ是常量,可行的取值范围在(0,+∞),取值越小,筛选越严格。 
对于进入圈子词库的词汇w,它在圈子词库中的词频可以被赋值为(∑Fn(w)/N)。 
下面对前述的方式1中通过个人词库归类确认属于一个群体的输入法用户的方法,进行示例性描述。 
参照图2,具体可以包括以下步骤: 
步骤201、收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频; 
步骤202、针对各用户的个人词库,计算得到该用户的特征参数; 
步骤203、计算各用户特征参数之间的相似度,完成对各个用户的聚类。 
上述方案的核心思想之一在于:用户在使用输入法的过程中,会逐渐积累起输入历史记录,这些用户原始输入文字信息在一定程度上反映了用户的兴趣爱好,行业归属,使用习惯等个人信息。因此,可以根据个人词库对用户进行自动的分类,将用户划分为不同的群体;而同一用户群内部的用户,可能具有 共同的兴趣爱好、更多的共同语言、相似的语言风格等等。进而,得到用户的群体信息之后,就可以通过分析同一群体中的用户的个人词库,从而得到本发明的所需的面向该用户群的辅助词库。 
步骤203实际上完成的就是一聚类过程,其中的“聚类”一词属于本领域的技术术语,一般是指:在没有样本所属类别信息的情况下,依据样本集数据的内在结构,将多个样本元素根据相关性合并成多个集合,每个集合称为一个类,每个类中的元素应当具有一定的共性(所述共性可以通过参数阈值加以控制)。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。所述的距离用于表示相似程度,距离越小则表示越相似,例如,在网页的自动聚类技术中,一般常用距离函数来表示网页间的相似程度。由于在人工智能、数据挖掘等领域已有大量关于聚类算法的研究,因此,在此对聚类算法本身不再进行详述。 
在本例中,个人词库的基本数据是词到词频的对应关系,其次还可以包含软件使用信息、用户分类信息、用户语言风格、用户情感因素等用户隐性属性信息。一个具体的优选计算过程如下: 
首先,将这些信息进行抽象、离散化为特征向量的形式; 
然后,需要将各个特征向量转换为权值分数。这样一用户可以表示为如下的一个模型: 
(W11,w12,w13...,w21,w22,w23...,w31,w32,w33...,w41,w42,w33,...,w51,w52,w53...) 
在得到用户的特征化表示之后,可以采用聚类方法对其聚类。聚类的方法可以系统的分为分裂法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等等,本领域技术人员依据需要选用即可。 
由于本实施例是在对用户自动聚类的基础上,提取该群体较常用的词汇,生成辅助词库,其统计结果更为客观和准确;并且,采用现有的各种聚类算法可以得到各种粒度的用户群体,所以也可以很方便的得到各种粒度的辅助词库,效率极高。 
实际上,前述的方式2也可以采用上述的聚类方案,即对多个个人词库进 行聚类,属于统一类别的个人词库就构成了该群体下的历史语料信息,对其进行分析即可得到针对该群体的特色字词。因为用户和个人词库之间的对应关系比较简单,只要将二者的对应关系从图2所示的步骤中忽略,就可以直接应用在方式2中,例如,参照图3,具体可以包括: 
步骤301、收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频; 
步骤302、针对各用户的个人词库,计算得到该个人词库的特征参数; 
步骤303、计算各词库特征参数之间的相似度,完成对各个词库的聚类。 
参照图4,示出了本发明一种辅助词库的生成方法实施例2,具体可以包括以下步骤: 
步骤401、获取该用户群体的历史输入字词及其词频; 
步骤402、分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频; 
步骤403、生成针对该用户群体的辅助词库。本说明书中也将该用户群体的辅助词库称之为圈子词库; 
步骤404、发布所述生成的辅助词库。 
相比于实施例1,图4所示的实施例增加了发布所述辅助词库的步骤。所述发布可以采用各种可行的方式。 
例如,依据本发明获得所需的圈子词库之后,将其链接发布在网络上,并对其相关用户群体进行介绍,如果用户认为其需要该圈子词库,则请求下载即可完成所述辅助词库的发布。 
又例如,现有技术下的一些网络空间(如论坛、博客等)是面向一些特定群体的,则可以将本发明获得的辅助词库放置在面向相应用户群的网络空间服务器上,当用户登录一网络空间时,该网络空间向用户主动发布所述生成的辅助词库。 
再例如,如前述,在本发明的一优选实施例中,还可以通过所收集的用户个人词库,对各个用户进行聚类,得到一些用户群体,则可以将本发明获得的针对相应用户群的辅助词库,向前述所得的相应用户发布即可。例如,输入法 的注册用户向服务器端提供自己的个人词库,经过服务器端的解析处理后,向该注册用户发布其相应群体的辅助词库,以帮助该用户提高输入效率。 
本实施例中的所述“发布”至少可以通过以下两种方式完成圈子词库向本地输入法系统的数据添加。 
一是先将圈子词库下载至本地,然后通过双击打开这个文件,通过特定的应用程序完成数据的添加。 
二是通过点击页面上的链接,直接在线完成圈子词库数据的添加。 
为了便于更新,每个圈子词库还可以具有一个唯一的ID,这个唯一ID可以是一个自然增长的整数,也可以是一个网络地址或者其他信息(只要保证两个不同的圈子词库具有不同的ID就可以)。每个圈子词库还可以具有一个版本信息,这个版本信息可以是一个流水号,也可以是最后一次修改的时间。该版本信息发生了改变,则表明该词库文件需要更新。例如,采用客户端最后一次更新时间作为版本信息,如果与服务器上保存的文件更新时间相比前者有变化,那么该词库文件需要更新。 
参照图5,示出了一种辅助词库的生成装置实施例,具体可以包括: 
历史信息获取模块501,用于获取一用户群体的历史输入字词及其词频; 
分析模块502,用于分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频; 
词库生成模块503,用于生成针对该用户群体的辅助词库。 
所述预置条件可以包括:目标字词在该用户群体的历史语料中的词频高于预设阈值;优选的,所述预置条件可以为:目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。所述预置条件还可以采用前述实施例中更为复杂的判定条件。 
在本发明的另一优选实施例中,所述历史信息获取模块501可以通过汇集一用户群体的个人词库而获得该用户群体的历史输入字词及其词频。如前述实施例中的方式1和方式2。 
在本发明的另一优选实施例中,所述历史信息获取模块501也可以通过针对该用户群体的文字素材进行分词统计而获得;或者,所述历史信息获取模块 通过该用户群体的用户手动添加相应的字词及其词频而获得。 
需要说明的是,上述三种方式独立应用,也可以组合应用,例如,以个人词库作为主要的历史语料源,以其他方式为次要源。 
在本发明的另一优选实施例中,所述历史信息获取模块501可以进一步包括: 
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频; 
特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库的特征参数; 
群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。 
在本发明的另一优选实施例中,所述历史信息获取模块501也可以进一步包括: 
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频; 
特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特征参数; 
群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。 
在本发明的另一优选实施例中,图5所示的装置还可以包括用于发布所述生成的辅助词库的发布模块504。 
对于发布模块504,可以位于一网络空间的服务器端,所述网络空间指向一用户群体。当用户登录该网络空间时,该网络空间触发所述发布模块向用户发布所述生成的辅助词库。 
或者,所述发布模块504位于通用服务器端,接受任意用户的下载请求,向该用户发布所请求的相应用户群的辅助词库。 
在本发明的另一优选实施例中,当历史信息获取模块501通过个人词库聚 类得到的用户群体时,所述发布模块504还可以采用主动推送的方式,向相应的注册用户发布所述生成的针对该用户群体的辅助词库。 
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。 
以上对本发明所提供的一种辅助词库的生成方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。 

Claims (16)

1.一种辅助词库的生成方法,其特征在于,包括:
获取一特定用户群体的历史输入字词及其词频;
分析所述历史输入字词及其词频,获取符合预置条件的、属于该特定用户群体的特色字词及其词频;
生成针对该特定用户群体的辅助词库。
2.如权利要求1所述的方法,其特征在于,所述历史输入字词及其词频的获取步骤包括:
通过汇集一特定用户群体的个人词库而获得该特定用户群体的历史输入字词及其词频。
3.如权利要求1或2所述的方法,其特征在于,所述历史输入字词及其词频的获取步骤包括:
通过针对该特定用户群体的文字素材进行分词统计而获得;
或者,通过该特定用户群体的用户手动添加相应的字词及其词频而获得。
4.如权利要求2所述的方法,其特征在于,通过以下方式汇集一特定用户群体的个人词库:
收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;
针对各用户的个人词库,计算得到该用户的特征参数;
计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。
5.如权利要求2所述的方法,其特征在于,通过以下方式汇集一特定用户群体的个人词库:
收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;
针对各用户的个人词库,计算得到该个人词库的特征参数;
计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。
6.如权利要求1或2所述的方法,其特征在于,所述预置条件包括:
目标字词在该特定用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。
7.如权利要求1所述的方法,其特征在于,还包括:
接受用户的下载请求,向用户发布相应特定用户群体的辅助词库;
或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助词库;所述网络空间指向一特定用户群体。
8.如权利要求4或5所述的方法,其特征在于,还包括:
向通过个人词库聚类得到的特定用户群体发布所述生成的针对该特定用户群体的辅助词库。
9.一种辅助词库的生成装置,其特征在于,包括:
历史信息获取模块,用于获取一特定用户群体的历史输入字词及其词频;
分析模块,用于分析所述历史输入字词及其词频,获取符合预置条件的、属于该特定用户群体的特色字词及其词频;
词库生成模块,用于生成针对该特定用户群体的辅助词库。
10.如权利要求9所述的装置,其特征在于,
所述历史信息获取模块通过汇集一特定用户群体的个人词库而获得该特定用户群体的历史输入字词及其词频。
11.如权利要求9或10所述的装置,其特征在于,
所述历史信息获取模块通过针对该特定用户群体的文字素材进行分词统计而获得;
或者,所述历史信息获取模块通过该特定用户群体的用户手动添加相应的字词及其词频而获得。
12.如权利要求10所述的装置,其特征在于,所述历史信息获取模块进一步包括:
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库的特征参数;
群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。
13.如权利要求10所述的装置,其特征在于,所述历史信息获取模块进一步包括:
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特征参数;
群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。
14.如权利要求9或10所述的装置,其特征在于,所述预置条件包括:
目标字词在该特定用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。
15.如权利要求9所述的装置,其特征在于,还包括:
发布模块,用于接受用户的下载请求,向用户发布相应特定用户群体的辅助词库;
或者,当用户登录一网络空间时,该网络空间触发所述发布模块向用户发布所述生成的辅助词库;所述网络空间指向一特定用户群体。
16.如权利要求12或13所述的装置,其特征在于,还包括:
发布模块,用于向通过个人词库聚类得到的特定用户群体发布所述生成的针对该特定用户群体的辅助词库。
CN2007103042805A 2007-12-26 2007-12-26 一种辅助词库的生成方法和装置 Active CN101470732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007103042805A CN101470732B (zh) 2007-12-26 2007-12-26 一种辅助词库的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007103042805A CN101470732B (zh) 2007-12-26 2007-12-26 一种辅助词库的生成方法和装置

Publications (2)

Publication Number Publication Date
CN101470732A CN101470732A (zh) 2009-07-01
CN101470732B true CN101470732B (zh) 2012-04-18

Family

ID=40828208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007103042805A Active CN101470732B (zh) 2007-12-26 2007-12-26 一种辅助词库的生成方法和装置

Country Status (1)

Country Link
CN (1) CN101470732B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459733A (zh) * 2018-02-06 2018-08-28 广州阿里巴巴文学信息技术有限公司 辅助输入方法、装置、计算设备及存储介质

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330083B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US9330082B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
CN103389979B (zh) * 2012-05-08 2018-10-12 深圳市世纪光速信息技术有限公司 在输入法中推荐分类词库的系统、装置及方法
CN103246703B (zh) * 2013-04-03 2017-09-15 百度在线网络技术(北京)有限公司 一种用于确定应用词库的方法和设备
CN103500016A (zh) * 2013-09-27 2014-01-08 北京邮电大学 一种基于交互的文字输入优化方法
CN103778232A (zh) * 2014-01-26 2014-05-07 百度在线网络技术(北京)有限公司 个性化信息的处理方法及装置
CN103810157A (zh) * 2014-02-28 2014-05-21 百度在线网络技术(北京)有限公司 输入法实现方法和装置
CN105094367A (zh) * 2015-07-22 2015-11-25 北京锤子数码科技有限公司 一种短语输入方法及终端设备
CN105138143A (zh) * 2015-08-28 2015-12-09 百度在线网络技术(北京)有限公司 词语数据库的获取方法及装置
CN106774970B (zh) * 2015-11-24 2021-08-20 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置
CN105786492A (zh) * 2016-02-23 2016-07-20 浪潮软件集团有限公司 利用大数据的方法实现代码预测提示的方法
CN107346182B (zh) * 2016-05-05 2021-11-02 北京搜狗科技发展有限公司 一种构建用户词库的方法、及用于构建用户词库的装置
CN106227435A (zh) * 2016-07-20 2016-12-14 广东欧珀移动通信有限公司 一种输入法处理方法及终端
CN108073303B (zh) * 2016-11-17 2021-11-30 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN109074171B (zh) * 2017-05-16 2021-03-30 华为技术有限公司 输入方法及电子设备
CN108399013B (zh) * 2018-03-16 2022-08-09 北京搜狗科技发展有限公司 一种用户词添加方法及装置
CN109033183B (zh) * 2018-06-27 2021-06-25 清远墨墨教育科技有限公司 一种可编辑的云词库的解析方法
CN110968246A (zh) * 2018-09-28 2020-04-07 北京搜狗科技发展有限公司 中文智能手写输入识别方法及装置
CN110688835B (zh) * 2019-09-03 2023-03-31 重庆邮电大学 一种基于词语特征值的法律专有领域词发现方法及装置
CN113515618A (zh) * 2020-04-09 2021-10-19 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN111782729A (zh) * 2020-07-07 2020-10-16 国网湖南省电力有限公司 一种分布式基础词库的构建和同步的方法及装置
CN114330305A (zh) * 2020-09-29 2022-04-12 北京搜狗科技发展有限公司 一种词条召回方法、装置和用于召回词条的装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091167A2 (en) * 2004-03-16 2005-09-29 Google Inc. Systems and methods for translating chinese pinyin to chinese characters
US20050273332A1 (en) * 2004-06-02 2005-12-08 Scott Sherryl L L Handheld electronic device with text disambiguation
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN1924858A (zh) * 2006-08-09 2007-03-07 北京搜狗科技发展有限公司 一种获取新词的方法、装置以及一种输入法系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091167A2 (en) * 2004-03-16 2005-09-29 Google Inc. Systems and methods for translating chinese pinyin to chinese characters
US20050273332A1 (en) * 2004-06-02 2005-12-08 Scott Sherryl L L Handheld electronic device with text disambiguation
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN1924858A (zh) * 2006-08-09 2007-03-07 北京搜狗科技发展有限公司 一种获取新词的方法、装置以及一种输入法系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108459733A (zh) * 2018-02-06 2018-08-28 广州阿里巴巴文学信息技术有限公司 辅助输入方法、装置、计算设备及存储介质

Also Published As

Publication number Publication date
CN101470732A (zh) 2009-07-01

Similar Documents

Publication Publication Date Title
CN101470732B (zh) 一种辅助词库的生成方法和装置
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
JP7302022B2 (ja) テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN107315738B (zh) 一种文本信息的创新度评估方法
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN108073568A (zh) 关键词提取方法和装置
CN108875074A (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN100483417C (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN111221962A (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN101645083A (zh) 一种基于概念符号的文本领域的获取系统及方法
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN114997288A (zh) 一种设计资源关联方法
Darmawiguna et al. The development of integrated Bali tourism information portal using web scrapping and clustering methods
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant