CN103853746A

CN103853746A - 词库生成方法及其系统、输入法及输入系统

Info

Publication number: CN103853746A
Application number: CN201210503507.XA
Authority: CN
Inventors: 文能
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Shanghai Feixun Data Communication Technology Co Ltd
Priority date: 2012-12-01
Filing date: 2012-12-01
Publication date: 2014-06-11

Abstract

本发明提出了词库生成方法及其系统、输入法及输入系统。词库生成方法，包括：a）获取第一词汇集，第一词汇集具有至少一个常用词汇；b）获取第二词汇集，第二词汇集具有至少一个网络热词；c）将第二词汇集中的网络热词与第一词汇集中的常用词汇进行共现分析；以及d）根据共现分析结果将网络热词归类于相应的常用词汇中以生成第三词汇集。本发明所提出的词库生成方法及其系统、输入法及输入系统，可以提供输入网络热词的体验，从而增加了个性化。

Description

词库生成方法及其系统、输入法及输入系统

技术领域

本发明涉及文字输入领域，特别是涉及词库生成方法及其系统、输入法及输入系统。

背景技术

当前，为了体现输入法（如拼音输入法）的个性化，某些输入法中通过输入拼音，会对应显示相关的联想词汇或者符号，比如，通过搜狗拼音输入法输入“hehe”，会出现“呵呵”、“喝喝”、“赫赫”与“O(∩_∩)O~”，目前所出现的联想词汇通常是同音的词汇，如“呵呵”、“喝喝”、“赫赫”，或者符号，如“O(∩_∩)O~”。

热词，即热门词汇，一种词汇现象，反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物，并具有时代特征，反映一个时期的热点话题及民生问题。而网络热词就是指网络上一个时期人们普遍关注的问题和事物形成的词汇，如“给力”、“杯具”、“我爸是李刚”等，伴随着互联网的发展，网络热词越来越流行，尤其受到当前的青年一代的喜好。

但是，目前的输入法，还未出现输入网络热词的相关体验。

发明内容

鉴于上述，有必要针对现有的未出现输入网络热词的相关体验的问题提出一种词库生成方法及其系统、输入法及输入系统。

本发明的一方面提出了一种词库生成方法，包括：

a）获取第一词汇集，所述第一词汇集具有至少一个常用词汇；

b）获取第二词汇集，所述第二词汇集具有至少一个网络热词；

c）将所述第二词汇集中的网络热词与所述第一词汇集中的常用词汇进行共现分析；以及

d）根据共现分析结果将所述网络热词归类于相应的所述常用词汇中以生成第三词汇集。

在其中一个实施方式中，步骤a）包括：

a1）按照第一预设周期搜集用户所使用的词汇；

a2）利用停用词表除去停用词汇以得到所述常用词汇；以及

a3）对所述常用词汇进行分类以形成所述第一词汇集。

在其中一个实施方式中，在步骤a2）后包括：

利用情感词汇表对所述常用词汇进行筛选以获取情感词汇；

判断所述情感词汇使用频率是否大于第一使用频率；

当所述情感词汇的使用频率大于第一使用频率时，则所述情感词汇为常用情感词汇；以及

对所述情感词汇进行分类。

在其中一个实施方式中，所述步骤b）包括：

b1）按照第二预设周期从用户生成内容（UGC）网站搜集文本；

b2）利用分词工具对所述文本进行分词；

b3）利用停用词表除去停用词汇以得到网络词汇；

b4）判断所述网络词汇使用频率是否大于第二使用频率；以及

b5）当所述网络词汇的使用频率大于第二使用频率时，则所述网络词汇为网络热词，并形成所述第二词汇集。

在其中一个实施方式中，所述步骤c）包括：

通过确定所述网络热词与所述常用词汇的共现指数来实现对所述网络热词与所述常用词汇的共现分析。

在其中一个实施方式中，所述步骤d）包括：

根据所述共现指数将所述网络热词归类于所述常用词汇中，并建立语义对应关系。

在其中一个实施方式中，所述步骤d）还包括：

将归类于同一常用词汇的所述网络热词按照所述共现指数高低进行排序。

在其中一个实施方式中，所述词库生成方法还包括步骤e）：

实时扩展网络热词，以生成第四词汇集，所述第四词汇集具有至少一个实时网络热词，并将所述实时网络热词归类于所述第三词汇集中。

在其中一个实施方式中，所述步骤e）包括：

e1）按照第三预设周期搜集网络文本语料；

e2）从所述网络文本语料里随机抽取语料作为训练语料；

e3）对所述训练语料进行模型训练；

e4）生成模型文件；

e5）通过所述模型文件自动识别所述网络文本语料里除所述训练语料外的语料并生成所述第四词汇集；以及

e6）根据所述语义对应关系将所述第四词汇集中的实时网络热词归类于所述第三词汇集中。

在其中一个实施方式中，其中，所述模型训练的特征集包括所述语义对应关系、词性。

本发明的另一方面提出了一种词库生成系统，包括：

第一词汇集，具有至少一个常用词汇；

第二词汇集，具有至少一个网络热词；

词库生成模块，包括第三词汇集；

其中，所述词库生成模块，用以对所述网络热词与所述常用词汇进行共现分析，并根据共现分析结果将所述网络热词归类于相应的所述常用词汇中以生成第三词汇集。

在其中一个实施方式中，还包括实时网络热词扩展模块，用以实时扩展网络热词，包括：

训练模型，对从网络文本语料里随机抽取的训练语料进行训以生成模型文件；

第四词汇集，通过所述模型文件自动识别所述网络文本语料里除所述训练语料外的语料并生成所述第四词汇集。

在其中一个实施方式中，所述词库生成系统还包括：

词汇推送模块，用以对所述第三词汇集中的词汇进行推送。

本发明的又一方面提出了一种输入法，包括：

用户输入常用词汇；

根据用户所输入的常用词汇搜索相应的网络热词；

对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示；以及

选择所需网络热词。

本发明的再一方面提出了一种输入系统，包括：

输入模块，用以用户输入常用词汇；

搜索模块，用以根据用户所输入的常用词汇搜索相应的网络热词；

交互模块，用以对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示，并接收用户指令选择所需网络热词。

由上可知，本发明所提出的词库生成方法及其系统、输入法及输入系统，可以提供输入网络热词的体验，从而增加了个性化。

附图说明

图1绘示了本发明一实施方式的词库生成系统的框图；

图2绘示了本发明的另一实施方式的词库生成方法的示意图；

图3绘示了共现指数示意图；

图4绘示了本发明的又一实施方式的输入系统的框图；

图5绘示了本发明的再一实施方式的输入法的流程图。

具体实施方式

为了使本领域相关技术人员更好地理解本发明的技术方案，下面将结合本发明实施方式的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。

参照图1，图1绘示了本发明一实施方式的词库生成系统的框图。

如图1所示，词库生成系统100包括第一词汇集110、第二词汇集120、词库生成模块130、实时网络热词扩展模块140、词汇推送模块150。

第一词汇集110，具有至少一个常用词汇，这里的常用词汇可以是直接来源于词典，也可以来源于用户之前所使用的词汇。

第二词汇集120，具有至少一个网络热词。

词库生成模块130，包括第三词汇集132，其中，词库生成模块130，用以对网络热词与常用词汇进行共现分析，并根据共现分析结果将网络热词归类于相应的常用词汇中以生成第三词汇集132。

实时网络热词扩展模块140，用以实时扩展网络热词，包括训练模型142、第四词汇集144。

训练模型142，对从网络文本语料里随机抽取的训练语料进行训以生成模型文件；第四词汇集144，通过模型文件自动识别网络文本语料里除训练语料外的语料并生成第四词汇集144，并且，可以将第四词汇集144中的实时网络热词加载在第三词汇集132中。

词汇推送模块150，用以对第三词汇集132中的词汇进行推送，比如，推送至用户编辑文字的窗口。

参照图2，图2绘示了本发明的另一实施方式的词库生成方法的示意图。

下面结合图1、图2来对词库生成过程进行详细描述。

首先，获取第一词汇集110，第一词汇集110具有至少一个常用词汇，即获取用户的常用词汇，此常用词汇可以是直接来源于词典，也可以是来源于用户之前所使用的词汇记录里，并且可以对常用词汇进行分类。具体而言，按照第一预设周期，如一个月，搜集用户所使用的词汇；利用停用词表除去停用词汇以得到常用词汇；以及对常用词汇进行分类，比如按照感情色彩分类，从而形成第一词汇集110。

进一步地，当第一词汇集110包括的词汇是常用情感词汇时，则可以利用情感词汇表对常用词汇进行筛选以获取情感词汇（如高兴、带劲、激动、媲美、出众、郁闷、悲伤、差强人意等）；判断情感词汇使用频率是否大于第一使用频率；当情感词汇的使用频率大于第一使用频率时，则情感词汇为常用情感词汇；以及对情感词汇进行分类，从而可以获得用户常用情感词汇分类集M_ij(i=1,2,……,n；j=1,2,……,n)。

然后，获取第二词汇集120，第二词汇集120具有至少一个网络热词。

具体而言，按照第二预设周期，如一个月或一周，从用户生成内容（User Generated Content，UGC）网站搜集文本，如图2中的种子网络UGC，这里的种子网络UGC可以选择微博、论坛等；利用分词工具对文本进行分词；利用停用词表除去停用词汇以得到网络词汇；判断网络词汇使用频率是否大于第二使用频率；以及当网络词汇的使用频率大于第二使用频率时，则网络词汇为网络热词（如欧克、给力、白富美、高富帅、杯具、伤不起等），并形成网络热词集N_k(k=1,2,……,n)。

之后，将第二词汇集120中的网络热词与第一词汇集110中的常用词汇进行共现分析，通过确定网络热词与常用词汇的共现指数来实现对网络热词与常用词汇的共现分析。

如图3所示，网络热词N₁，与常用词汇W₁₁、W₁₂、W₁₃…W_1n的共现指数分别为P₁、P₂、P₃…P_n、关于共现指数的获取途径可参考下午中的例1。

继而，根据共现分析结果将网络热词归类于相应的常用词汇中以生成第三词汇集132，并建立语义对应关系，具体可参考下述。

微博，如新浪微博，作为时下最盛行最能够表达网友关注内容网络风向标媒体，其上发表的热点话题热点词汇等直接影响了人们对日常事物的抽象表达。因此，下面将以微博中的搜索为载体，将网络热词与用户常用情感词进行组合在微博中进行搜索，目的在于分析两个词汇出现在同一文本中的概率，将搜索得到的返回结果数作为两个词汇的共现指数，表示两个出现在同一文本中的文本数。

例1：

在微博中搜索后，网络热词“给力”、“杯具”、“伤不起”与用户常用词汇“高兴”、“郁闷”、“悲伤”的共现指数见下表：

	高兴	郁闷	悲伤
				给力	*2,170,367*	1,362,388	1,710,898
杯具	255,631	*412,267*	134,032
				伤不起	350,571	*653,471*	600,153

表一

由表一可知，网络热词“给力”与“高兴”的共现指数最高，则将“给力”一词划分到“高兴”所在类别中；“杯具”、“伤不起”与“郁闷”的共现指数最高，则将“杯具”、“伤不起”划分到“郁闷”所在类别中。

将网络热词归类在相应的常用词汇中后，并建立语义对应关系，如建立“给力”与“高兴”的语义对应关系，并生成新的词库，即第三词汇集132，此时的第三词汇集不仅包括第一词汇集110中的用户常用词“高兴”，还包括与其相匹配的第二词汇集120中的网络热词“给力”，由于“高兴”与“给力”间具有相应的语义对应关系，则第三词汇集132也可以称之为语义对应关系词库。

需说明的是，上面主要叙述了通过在微博中搜索来确定网络热词与常用词汇间的共现指数，但并不以此为限，也可以在其它UGC网站，如社交网络Facebook、人人网等，比如论坛百度贴吧、天涯社区等。

此外，还可以将归类于同一常用词汇的网络热词按照共现指数高低进行排序，比如，“杯具”与“伤不起”都归类于“郁闷”中，但是 “伤不起”与“郁闷”的共现指数相对于“杯具”与“郁闷”的共现指数较高，因此，则可以将“杯具”排在前面，“伤不起”排在后面。

在本实施方式中，还可以实时扩展网络热词，以生成第四词汇集144，第四词汇集具有至少一个实时网络热词，并将实时网络热词归类于所述第三词汇集中。

如图2所示，按照第三预设周期，如每天或每周，搜集网络文本语料，从而形成网络文本语料集；从网络文本语料里随机抽取语料作为训练语料；对训练语料进行模型训练，如条件随机域（Conditional Random Fields，CRFs）模型训练；生成模型文件；通过模型文件自动识别网络文本语料里除训练语料外的语料并生成第四词汇集144，可以通过模型文件自动标注剩下的语料中的网络热词；并且，可根据语义对应关系将第四词汇集144中的实时网络热词归类于第三词汇集132中。

比如，当前，网络热词“给力”已经不流行了，网络上已经多使用其它网络热词，则此时可以通过模型训练获得该词，并将该词归类于“高兴”中。

在上述的模型训练的特征集可以是从语义对应关系词库中提供的语义对应关系，还可以是词性、如褒、贬、中性。

关于第四词汇集144，其相对于第二词汇集120，不仅可以包括实时的网络热词，并且，由于其来源的语料相对于第二词汇集120来源的语料多，如图2中所示，种子网络UGC仅为网络文本语料集的部分，而第四词库集144的语料来源是整个网络文本语料集，因此，第四词汇集144可以获取更多的网络热词，，从而达成了扩展网络热词。

参照图4，图4绘示了本发明的又一实施方式的输入系统的框图。

输入系统400，包括输入模块410、搜索模块420、交互模块430。

输入模块410，用以用户输入常用词汇，比如，用户输入“高兴”或“郁闷”。

搜索模块420，用以根据用户所输入的常用词汇搜索相应的网络热词，比如，根据用户所输入的常用词汇“高兴”，可搜索到网络热词“给力”，比如，根据用户所输入的常用词汇“郁闷”，可搜索到网络热词“杯具”、“伤不起”。

交互模块430，用以对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示，并接收用户指令选择所需网络热词。比如，当输入为“高兴”时，可依次显示“高兴”、“给力”，当输入“郁闷”时，可依次显示“郁闷”、“伤不起”、“杯具”，用户根据所需可选择所需的网络热词，如选择“给力”，以及选择“杯具”。

参照图5，图5绘示了本发明的再一实施方式的输入法的流程图。

首先，在步骤510中，用户输入常用词汇，比如，用户输入“高兴”或“郁闷”。

然后，在步骤520中，根据用户所输入的常用词汇搜索相应的网络热词，比如，根据用户所输入的常用词汇“高兴”，可搜索到网络热词“给力”，比如，根据用户所输入的常用词汇“郁闷”，可搜索到网络热词“杯具”、“伤不起”。

之后，在步骤530中，对所搜索到的网络热词按照与所输入的常用词汇的共现指数进行排序显示，比如，当输入为“高兴”时，可依次显示“高兴”、“给力”，当输入“郁闷”时，可依次显示“郁闷”、“伤不起”、“杯具”（因“伤不起”与“郁闷”的共现指数相对于“杯具”与“郁闷”的共现指数较高）。

继而，在步骤540中，选择所需网络热词，比如，选择“给力”，以及选择“杯具”。

需说明的是，上述各实施方式，即词库生成系统、词库生成方法、输入法、输入系统，可以用于各种电子装置中，比如，个人计算机、手机、平板电脑、笔记本电脑，不以此为限，还可以用于其它电子装置中。

以上仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1. 一种词库生成方法，其特征在于，包括：

2. 根据权利要求1所述的词库生成方法，其特征在于，步骤a）包括：

a1）按照第一预设周期搜集用户所使用的词汇；

a2）利用停用词表除去停用词汇以得到所述常用词汇；以及

a3）对所述常用词汇进行分类以形成所述第一词汇集。

3. 根据权利要求2所述的词库生成方法，其特征在于，在步骤a2）后包括：

利用情感词汇表对所述常用词汇进行筛选以获取情感词汇；

判断所述情感词汇使用频率是否大于第一使用频率；

对所述情感词汇进行分类。

4. 根据权利要求1所述的词库生成方法，其特征在于，所述步骤b）包括：

b2）利用分词工具对所述文本进行分词；

b3）利用停用词表除去停用词汇以得到网络词汇；

5. 根据权利要求1所述的词库生成方法，其特征在于，所述步骤c）包括：

6. 根据权利要求5所述的词库生成方法，其特征在于，所述步骤d）包括：

7. 根据权利要求6所述的词库生成方法，其特征在于，所述步骤d）还包括：

8. 根据权利要求6所述的词库生成方法，其特征在于，还包括步骤e）：

9. 根据权利要求8所述的词库生成方法，其特征在于，所述步骤e）包括：

e1）按照第三预设周期搜集网络文本语料；

e2）从所述网络文本语料里随机抽取语料作为训练语料；

e3）对所述训练语料进行模型训练；

e4）生成模型文件；

10. 根据权利要求9所述的词库生成方法，其特征在于，其中，所述模型训练的特征集包括所述语义对应关系、词性。

11. 一种词库生成系统，其特征在于，包括：

第一词汇集，具有至少一个常用词汇；

第二词汇集，具有至少一个网络热词；

词库生成模块，包括第三词汇集；

12. 根据权利要求11所述的词库生成系统，其特征在于，还包括实时网络热词扩展模块，用以实时扩展网络热词，包括：

13. 根据权利要求11所述的词库生成系统，其特征在于，还包括：

词汇推送模块，用以对所述第三词汇集中的词汇进行推送。

14. 一种输入法，其特征在于，包括：

用户输入常用词汇；

根据用户所输入的常用词汇搜索相应的网络热词；

选择所需网络热词。

15. 一种输入系统，其特征在于，包括：

输入模块，用以用户输入常用词汇；