CN102467537B

CN102467537B - 删除词汇的方法和装置

Info

Publication number: CN102467537B
Application number: CN201010542839.XA
Authority: CN
Inventors: 付立群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2010-11-10
Filing date: 2010-11-10
Publication date: 2016-07-27
Anticipated expiration: 2030-11-10
Also published as: CN102467537A

Abstract

本发明公开了一种删除词汇的方法和装置，属于网络技术领域。该方法包括：获取第一词汇库；根据所述第一词汇库检测第二词汇库；如果检测到所述第二词汇库中有不在所述第一词汇库中的第二词汇，删除所述第二词汇。该装置包括：获取模块、比较模块和删除模块。本发明通过检测用户的词库中不再受关注的热门词汇和新词，在不干扰用户正常输入的前提下自动删除这类垃圾词汇，在节约存储空间的同时，减少或消除用户因这类词汇造成误输入的机会。

Description

删除词汇的方法和装置

技术领域

本发明涉及网络技术领域，特别涉及一种删除词汇的方法和装置。

背景技术

互联网时代的特点是信息快速流通、整合，会出现很多新的词汇，这类词汇的特点是随意性大，时效性强，传播快、失效快。现代输入法随着互联网的发展，在词库方面大大增强，很多网络中出现的流行词汇可以在输入法中方便的输出，这得益于输入法中加入的各类专业词库，这些专业词库中的词汇在后台经过计算机的统计或人工的处理，可以得到及时更新，以便跟上流行的脚步。

为方便用户输入的需要，现代输入法会为用户提供一个热门词汇的词库，该热门词汇是指当前网络上的流行词汇，这个词库会根据网民的关注打点定期自动更新，以方便用户输入最新的热门词汇。为了在用户多次输入流行词汇时，造词方便，这类词库中的词在经过用户输入后，会在用户的个人词库中留下记录，以便用户下次输入时，输入法调整优化候选词的顺序。

在对现有技术进行分析后，发明人发现现有技术至少具有如下缺点：

在现有技术中，词一旦进入到用户的个人词库中，就和后台的词汇更新服务器失去联系，更新时无法删除过时(很可能不会再使用)的词汇。当某热门词汇出现一段时间后，该热门词汇可能已经不再被人们所关注，这样随着时间的推移，用户的个人词库中这类垃圾词越来越多，浪费存储空间，使得客户端上的词库大小越来越大，并且被无意义的词汇占据大多数空间，对用户的正常输入形成干扰。

发明内容

本发明实施例提供了一种删除词汇的方法和装置。所述技术方案如下：

一种删除词汇的方法，包括：

获取服务器端的第一词汇库，其中，所述第一词汇库包括统计服务器从网络词汇中分析出的热门词汇和新词；

比较所述第一词汇库中包括的热门词汇和新词与本地的第二词汇库中包括的热门词汇和新词；

当获知所述第二词汇库中有不在所述第一词汇库中的第二词汇，删除所述第二词汇，其中，所述第二词汇属于所述第二词汇库中包括的热门词汇和新词中的词汇。

所述第一词汇库具体包括由统计服务器中分析出的当前热门词汇和新词。

所述热门词汇为网络用户使用次数高于预设阈值的词汇，所述新词为新出现的词汇。

当获知所述第二词汇库中有不在所述第一词汇库中的第二词汇之后，还包括：

判断所述第二词汇是否满足第一预设标准，如果是，则执行所述删除所述第二词汇。

当所述第二词汇不满足所述第一预设标准时，判断所述第二词汇是否满足第二预设标准，如果是，则执行所述删除所述第二词汇。

判断所述第二词汇是否满足第二预设标准，具体包括：

根据所述第二词汇的最后输入时间、首次输入时间和输入次数，计算所述第二词汇的平均输入次数，并判断所述平均输入次数是否满足所述第二预设标准。

所述方法还包括：

当用户输入所述第一词汇库中的词汇时，保存所述词汇的输入次数，并保存所述词汇的首次输入时间和最后输入时间。

一种删除词汇的装置，包括：

获取模块，用于获取服务器端的第一词汇库，其中，所述第一词汇库包括统计服务器从网络词汇中分析出的热门词汇和新词；

比较模块，用于比较所述第一词汇库中包括的热门词汇和新词与本地的第二词汇库中包括的热门词汇和新词；

删除模块，用于当获知所述第二词汇库中有不在所述第一词汇库中的第二词汇，删除所述第二词汇，其中，所述第二词汇属于所述第二词汇库中包括的热门词汇和新词中的词汇。

所述删除模块还包括：

第一判断单元，用于判断所述第二词汇是否满足第一预设标准，如果是，则触发所述删除模块删除所述第二词汇。

所述删除模块还包括：

第二判断单元，用于当所述第二词汇不满足所述第一预设标准时，判断所述第二词汇是否满足第二预设标准，如果是，则触发所述删除模块删除所述第二词汇。

所述第二判断单元用于根据所述第二词汇的最后输入时间、首次输入时间和输入次数，计算所述第二词汇的平均输入次数，并判断所述平均输入次数是否满足所述第二预设标准。

所述装置还包括：

保存模块，用于当用户输入所述第一词汇库中的词汇时，保存所述词汇的输入次数，并保存所述词汇的首次输入时间和最后输入时间。

本发明实施例提供的技术方案的有益效果是：

通过检测用户的词库中不再受关注的热门词汇和新词，在不干扰用户正常输入的前提下自动删除这类垃圾词汇，在节约存储空间的同时，减少或消除用户因这类词汇造成误输入的机会。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种删除词汇的方法的流程图；

图2是本发明实施例提供的一种删除词汇的方法的流程图；

图3是本发明实施例提供的一种删除词汇的装置的结构示意图；

图4是本发明实施例提供的一种删除词汇的装置的结构示意图；

图5是本发明实施例提供的一种删除词汇的装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

为了减少垃圾词汇，并提高用户输入的准确率，本发明实施例提供了一种删除词汇的方法，参见图1，该方法包括：

101：获取服务器端的第一词汇库；

102：比较所述第一词汇库和本地的第二词汇库；

103：当获知该第二词汇库中有不在该第一词汇库中的第二词汇，删除该第二词汇。

该第一词汇库具体包括由统计服务器中分析出的当前热门词汇和新词。

其中，热门词汇为网络用户使用次数高于预设阈值的词汇，新词为新出现的词汇。该预设阈值可以由系统管理员在系统服务器设置，可以人为调整，也可以是通过对网络词汇的数量进行分析，通过比例调整。例如，如果统计服务器经由分析，发现在当前网络中的网页和图片中，词汇“盗梦空间”出现的次数(该次数即是网络用户的使用次数)大于3000次，则将该“盗梦空间”作为热门词汇记录在第一词汇库中。如果统计服务器经由分析，发现在当前网络中的网页和图片中，出现一从未出现过的词汇(即新出现的词汇)“给力”，则将该词汇作为新词记录在第一词汇库中。

当获知该第二词汇库中有不在该第一词汇库中的第二词汇之后，还包括：

判断该第二词汇是否满足第一预设标准，如果是，则执行该删除该第二词汇。

当该第二词汇不满足该第一预设标准时，判断该第二词汇是否满足第二预设标准，如果是，则执行该删除该第二词汇。

判断该第二词汇是否满足第二预设标准，具体包括：

根据该第二词汇的最后输入时间、首次输入时间和输入次数，计算该第二词汇的平均输入次数，并判断该平均输入次数。

需要说明的是，在对该平均输入次数进行计算时，其方法有多种，本发明实施例对此不做具体限定。且，对该第二词汇的使用情况的判断也可以根据多种不同的因素，不仅限于对其平均输入词汇的计算，当该第二词汇的关联词汇被删除时，也可根据词汇间的关联关系，将该第二词汇删除，例如，如果第二词库中有“西楚霸王项羽”和“西楚霸王”两个词汇，而“西楚霸王项羽”被删除，则可对“西楚霸王”进行删除。

该方法还包括：

当用户输入该第一词汇库中的词汇时，保存该词汇的输入次数，并保存该词汇的首次输入时间和最后输入时间。

本发明实施例提供的方法，通过检测用户的词库中不再受关注的热门词汇和新词，在不干扰用户正常输入的前提下自动删除这类垃圾词汇，在节约存储空间的同时，减少或消除用户因这类词汇造成误输入的机会。

实施例2

为了减少垃圾词汇，并提高用户输入的准确率，在实施例1的基础上，本发明实施例还提供了一种删除词汇的方法，其中，以第一词汇库为热门词汇库和新词库，第二词汇库为本地保存的热门词汇库和新词库为例进行说明，参见图2，该方法包括：

201：获取服务器端的第一词汇库；

具体地，该步骤201包括：获取当前后台统计服务器上的热门词汇库和新词库；

需要说明的是，客户端可以根据自身的性能设置获取的周期，当词库中的词大于预设数量，可将获取的周期延长。

在本发明实施例中，后台统计服务器定时去各大门户网站、论坛抓取网页，并根据预设标准从网页中分析文章、用户留言等信息，并通过词法分析、语法分析、断句等方式，统计得出网络中最新的热门词汇和新词，并将该次的统计结果与上次的统计结果做比较，计算出新增加或减少的热门词汇和新词。进一步地，计算出的热门词汇和新词还需由管理员进行人工核对，以确保其安全性。另外，该热门词汇和新词还可以由管理员设置。后台统计服务器会定期向客户端推送新增的热门词汇和新词，后台统计服务器的推送时间可以由系统设定或者由系统管理员进行设置，当然，系统管理员还可以人为的不定时将一些突发的词汇加入第一词汇库，手动向客户端推送，使得客户端及时得知最新的词汇。

202：比较第一词汇库和本地的第二词汇库；

具体地，该步骤202包括：比较获取到的热门词汇库和新词库和本地保存的热门词汇库和新词库；

具体地，该检测可以通过粗略匹配的方法或精确匹配的方法，本发明实施例对此不做具体限定。例如，当获取到的热门词汇库中包含“冈拉梅朵”，而通过用部分词“冈拉”粗略匹配，没有得到匹配结果，则该词汇为新的热门词汇，将其保存在本地的词汇库中，以便用户输入时取用。

203：当获知第二词汇库中有不在第一词汇库中的第二词汇时，则判断第二词汇是否满足第一预设标准；

如果是，则执行步骤207；

如果否，且最后输入时间大于预设值，则执行步骤204；

如果检测到本地热门词汇库中有不在获取到的热门词汇库中的第二词汇，判断该第二词汇的最后输入时间是否大于7天，如果是，则执行步骤207；

如果否，且最后输入时间大于3天，则执行步骤204；

在本发明实施例中，检测到本地热门词汇库中有不在获取到的热门词汇库中的第二词汇是为了检测本地词库中是否有已经不受大众关注的词汇，由于热门词汇的特性为生命周期较短，时效性强，过期较快，所以当检测到已经不在获取的热门词汇库中的第二词汇时，可直接将该第二词汇删除，但是，为了保证不误删和错删，并且为用户提供更多的选择，还可以进一步判断该第二词汇的使用情况，以便根据使用情况对第二词汇进行处理。如果第二词汇的最后输入时间大于7天，则可以理解为该第二词汇已经不为用户所关注。

需要说明的是，在本发明实施例中，本地热门词汇库中的第二词汇的最后输入时间大于7天，为第一预设标准的具体内容，该第一预设标准可以随用户设定改变，以适应用户的输入习惯。其中，词汇的类型和预设值是一一对应的关系，当第二词汇为热门词汇时，其预设值可以较小，优选地，热门词汇对应的预设值为3天，可根据用户设定改变，避免了误删掉还有价值的词汇。

该步骤还可以有以下方法：定期检测本地热门词汇库中各个词汇的使用情况，如果某词汇的最后输入时间大于预设值，则可对该词汇进行标记，当获取到新的热门词汇库时，优先将标记的词汇与新的热门词汇库进行比较，可以进一步加快检测速度，提高检测效率。

204：判断该第二词汇是否满足第二预设标准，如果是，则执行该删除第二词汇，如果是，执行步骤208，如果否，则执行步骤207；

具体地，该步骤204包括：判断该第二词汇的平均输入次数是否满足至少平均一天输入一次，如果是，执行步骤208，如果否，则执行步骤207；

在本发明实施例中，该第二词汇的平均输入次数的计算方式为：

N＝counts/(T_LastTypein-T_FirstTypein)；

其中，N为第二词汇的平均输入次数，T_LastTypein为第二词汇的最后输入时间，T_FirstTypein为第二词汇的首次输入时间，counts为输入次数。

其中，本地热门词汇库中的该第二词汇的平均输入次数满足至少平均一天输入一次，为第二设标准的具体内容，该第二预设标准可以随用户设定改变，以适应用户的输入习惯。

例如，当检测到本地热门词汇“重生之美国大编剧”的T_LastTypein为9月12日，T_FirstTypein为9月8日，counts为3，则N为3/4，则不满足平均一天输入一次的标准，可删除该词，但是如果counts为5，则满足平均一天输入一次的标准，可保留该词。

需要说明的是，用户词库此条的文件或内存存储的结构中包括：标准编码、输入编码、词、输入次数、最后输入时间、首次输入时间和词类型，其中词类型即是热门词汇或新词或其他类型。

205：当获知第二词汇库中有不在第一词汇库中的第二词汇时，则判断第二词汇是否满足第一预设标准；

如果是，则执行步骤207；

如果否，且最后输入时间大于预设值，则执行步骤206；

具体地，该步骤205包括：如果检测到本地新词库中有不在获取到的新词库中的第二词汇，则判断该第二词汇的最后输入时间是否大于30天，

如果是，则执行步骤207；

如果否，且最后输入时间大于15天，则执行步骤206；

在本发明实施例中，检测到本地新词库中有不在获取到的新词库中的第二词汇是为了检测本地词库中是否有已经不受大众关注的词汇，由于新词的特性为生命周期较长，不会很快过期，所以当检测到已经不在获取的新词库中的第二词汇时，可直接将该第二词汇删除，但是，为了保证不误删和错删，并且为用户提供更多的选择，还可以进一步判断该第二词汇的使用情况，以便根据使用情况对第二词汇进行处理。如果第二词汇的最后输入时间大于30天，则可以理解为该第二词汇已经不为用户所关注。

需要说明的是，在本发明实施例中，本地新词库中的第二词汇的最后输入时间大于30天，为第一预设标准的具体内容，该第一预设标准可以随用户设定改变，以适应用户的输入习惯。其中，词汇的类型和预设值是一一对应的关系，当第二词汇为新词时，其预设值可以较大，优选地，新词对应的预设值为15天，可根据用户设定改变，避免了误删掉还有价值的词汇。

该步骤还可以有以下方法：定期检测本地新词库中各个词汇的使用情况，如果某词汇的最后输入时间大于预设值，则可对该词汇进行标记，当获取到新的新词库时，优先将标记的词汇与新的新词库进行比较，可以进一步加快检测速度，提高检测效率。

206：判断该第二词汇是否满足第二预设标准，如果是，则执行该删除第二词汇，如果是，执行步骤208，如果否，则执行步骤207；

具体地，该步骤206包括：判断该第二词汇的平均输入次数是否满足至少平均两天输入一次，如果是，执行步骤208，如果否，则执行步骤207；

需要说明的是，上述步骤203-204是对本地热门词汇库进行检测的过程，而步骤205至206是对本地新词库进行检测的过程，该两个过程可以是同时进行，也可以根据词库的大小预设其检测的顺序，本发明实施例对此不做具体限定。

207：从当前词库中删除该第二词汇。

进一步地，该方法还包括：

当用户输入第一词汇库中的词汇时，保存该词汇的输入次数，并保存所述词汇的首次输入时间和最后输入时间。该步骤对词汇的输入有所记录，以便根据这些保存的信息对词汇的使用情况进行分析。

实施例3

为了减少垃圾词汇，并提高用户输入的准确率，本发明实施例提供了一种删除词汇的装置，参见图3，该装置包括：

获取模块301，用于获取服务器端的第一词汇库；

比较模块302，用于比较该第一词汇库和本地的第二词汇库；

删除模块303，用于当获知该第二词汇库中有不在该第一词汇库中的第二词汇，删除该第二词汇。

参见图4，该删除模块303还包括：

第一判断单元303a，用于判断该第二词汇是否满足第一预设标准，如果是，则触发该删除模块303删除该第二词汇。

该删除模块303还包括：

第二判断单元303b，用于当该第二词汇不满足该第一预设标准时，判断该第二词汇是否满足第二预设标准，如果是，则触发该删除模块删除该第二词汇。

该第二判断单元303b用于根据该第二词汇的最后输入时间、首次输入时间和输入次数，计算该第二词汇的平均输入次数，并判断该平均输入次数是否满足该第二预设标准。

参见图5，该装置还包括：

保存模块304，用于当用户输入该第一词汇库中的词汇时，保存该词汇的输入次数，并保存该词汇的首次输入时间和最后输入时间。

本实施例提供的装置，具体可以客户端，与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供的上述技术方案的全部或部分可以通过程序指令相关的硬件来完成，所述程序可以存储在可读取的存储介质中，该存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种删除词汇的方法，其特征在于，包括：

比较所述第一词汇库中包括的热门词汇和新词与本地的第二词汇库中包括的热门词汇和新词，其中，优先将所述第二词汇库中标记的热门词汇与所述第一词汇库中的热门词汇进行比较，所述标记的热门词汇为最后输入时间大于预设值的热门词汇；

当获知所述第二词汇库中有不在所述第一词汇库中的第二词汇，判断所述第二词汇是否满足第一预设标准，如果是，删除所述第二词汇，以减少所述第二词汇所占用的存储空间，其中，所述第一预设标准为第二词汇的最后输入时间与当前时刻的时间差大于预设值，所述第二词汇属于所述第二词汇库中包括的热门词汇和新词中的词汇；

当所述第二词汇不满足所述第一预设标准时，根据所述第二词汇的最后输入时间、首次输入时间和输入次数，计算所述第二词汇的平均输入次数，并判断所述平均输入次数是否满足第二预设标准，如果是，则执行所述删除所述第二词汇，以减少所述第二词汇所占用的存储空间。

2.根据权利要求1所述的方法，其特征在于，所述热门词汇为网络用户使用次数高于预设阈值的词汇，所述新词为新出现的词汇。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种删除词汇的装置，其特征在于，包括：

比较模块，用于比较所述第一词汇库中包括的热门词汇和新词与本地的第二词汇库中包括的热门词汇和新词，其中，优先将所述第二词汇库中标记的热门词汇与所述第一词汇库中的热门词汇进行比较，所述标记的热门词汇为最后输入时间大于预设值的热门词汇；

删除模块，用于当获知所述第二词汇库中有不在所述第一词汇库中的第二词汇，删除所述第二词汇，以减少所述第二词汇所占用的存储空间，其中，所述第二词汇属于所述第二词汇库中包括的热门词汇和新词；

其中，所述删除模块还包括：

第一判断单元，用于判断所述第二词汇是否满足第一预设标准，如果是，则触发所述删除模块删除所述第二词汇，其中，所述第一预设标准为所述第二词汇的最后输入时间与当前时刻的时间差大于预设值；

所述删除模块还包括：

第二判断单元，用于当所述第二词汇不满足所述第一预设标准时，根据所述第二词汇的最后输入时间、首次输入时间和输入次数，计算所述第二词汇的平均输入次数，并判断所述平均输入次数是否满足第二预设标准，如果是，则触发所述删除模块删除所述第二词汇，以减少所述第二词汇所占用的存储空间。

5.根据权利要求4所述的装置，其特征在于，所述热门词汇为网络用户使用次数高于预设阈值的词汇，所述新词为新出现的词汇。

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：